Informations

Classification taxonomique de la sortie BLAST

Classification taxonomique de la sortie BLAST


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Je travaille avec le séquençage de nouvelle génération. J'ai BLASTé les contigs assemblés de novo bovin à la base de données de nucléotides NCBI. J'ai obtenu une correspondance avec beaucoup d'espèces, c'est-à-dire différents types de bactéries, de virus et de mammifères. Je veux qu'ils regroupent de manière logique, c'est-à-dire toutes les bactéries dans un groupe (groupe de bactéries), de la même manière les virus et les mammifères. C'est difficile à organiser manuellement, quelqu'un peut-il m'aider à organiser mon grand nombre d'espèces en un groupe logique. Remerciant d'avance.


Il s'agit essentiellement de métagénomique. Félicitations, vous avez déjà fait l'étape la plus longue. Il y a plusieurs façons de partir de là, mais je vais parler de celle que je connais le mieux. Il y a l'outil d'analyse métagénomique MEGAN. Il peut lire votre Blast Output, s'il est dans le bon format (XML normal ou tabulaire) et fera automatiquement ce que vous voulez. Pour commencer, utilisez simplement les valeurs par défaut, pour plus d'aide, rendez-vous sur le site Web communautaire de MEGAN pour obtenir de l'aide.

L'analyse de vos données peut prendre un peu de temps, selon le nombre de contigs dont vous disposez. Mais si vous pouviez les faire exploser dans un délai raisonnable, cela ne devrait poser aucun problème. Comme je l'ai dit, vous avez déjà franchi l'étape la plus chronophage.


Configurez cette recherche.

Mark Boguski du NBCI l'a remarqué et a fourni à Crichton une meilleure séquence, illustrée ci-dessous, pour la suite, Le monde perdu. Identifiez la source la plus probable de cette séquence en utilisant le nucléotide-nucléotide BLAST. Mark a inscrit son nom dans la séquence qu'il a fournie. Pour voir le nom de Mark, utilisez la page de traduction BLAST (blastx) avec la séquence ci-dessous. (Recherchez MARK ÉTAIT ICI NIH).

La bonne utilisation des services de traduction de BLAST est de rechercher des protéines similaires (identifier des homologues potentiels) dans d'autres espèces.


Classification taxonomique des résultats de BLAST - Biologie

Il existe de nombreuses façons de BLAST. Le programme est disponible auprès de NCBI et vous pouvez le télécharger et l'exécuter sur votre propre machine. Vous pouvez utiliser l'interface Web qui recherche les données disponibles sur les machines de NCBI. (Si vous n'avez jamais utilisé l'interface Web auparavant, il existe un didacticiel très détaillé qui vous guide tout au long du processus.) Les données NCBI sont fréquemment mises à jour, de sorte que de nombreuses personnes préfèrent écrire des programmes qui utilisent le serveur NCBI au lieu de tout gérer localement. NCBI prend en charge cela avec le service QBlast.

Biopython inclut la prise en charge de l'exécution de BLAST localement (toutes les versions de BLAST) et à distance (QBlast n'autorise que les recherches BLASTP et BLASTN). En plus de lire cette conférence, vous devriez parcourir le didacticiel Biopython correspondant à BLAST. Je vais le présenter dans un style et un focus différents.

Je vais commencer par l'interface Web Biopython vers BLAST (via l'interface QBlast de NCBI). La fonction est disponible comme Bio.Blast.NCBIWWW.qblast ce qui signifie que c'est dans le NCBIWWW module, qui est un sous-module de Détruire, qui est un sous-module de Biographie. Une pratique courante en Python consiste à importer le module le plus bas d'une hiérarchie dans le fichier, comme ceci Une fois que j'ai importé le Détruire sous-module, je peux l'utiliser pour accéder au qblast fonction, comme vous le voyez dans le texte ci-dessus.

La fonction qblast prend de nombreux paramètres. Vous pouvez en obtenir une liste avec la fonction intégrée de Python aider() fonction : Cela indique que trois champs sont requis : le programme à utiliser ("blastp" ou "blastn"), la base de données à rechercher (voir le guide de sélection de NCBI pour une liste des bases de données disponibles pour les deux programmes), et la séquence de requête . Les autres paramètres sont facultatifs.

En lisant la documentation de qblast (pas pour les âmes sensibles !), j'ai découvert que la séquence de requête doit être au format FASTA ou par une entrée GenBank ou une liste d'identifiants de gènes. J'utiliserai un enregistrement FASTA, que je définirai de manière interactive. (Les chaînes entre guillemets triples sont utilisées pour les chaînes pouvant comporter plusieurs lignes.) Je vais exécuter cette séquence contre la base de données de protéines non redondante ("nr") de NCBI à l'aide de blastp. (Ce message d'avertissement est ennuyeux. Je viens de terminer d'écrire un e-mail à la liste Biopython demandant pourquoi il est là.)

La fonction qblast renvoie un cStringIO.StringIO exemple. C'est une classe Python qui agit comme un fichier mais au lieu d'obtenir les données du système de fichiers, elle obtient les données d'une chaîne. Si vous voulez voir le résultat, vous pouvez lire à partir de cette instance de fichier (ou « semblable à un fichier ») en utilisant son lire() méthode, comme je l'ai fait là-bas. Voici à quoi ressemble le début du texte de sortie Web BLAST. Comme vous pouvez le voir, le résultat n'est pas le format BLAST que vous avez l'habitude de voir. Il contient un balisage HTML pour mettre en évidence certains champs, et pour afficher correctement l'un des noms de l'auteur (Schäffer, au lieu de Schaffer).

Après le lire() appel que j'ai utilisé chercher(0). L'objet fichier a une position dans le fichier. Les lectures et les écritures se produisent à cette position et font avancer les informations de position (sauf les lectures au-delà de la fin du fichier). Les chercher(0) La méthode indique au fichier de se déplacer vers la position 0, de sorte que la prochaine lecture se produira au début. J'en avais besoin parce que le lire() laissé la position du fichier à la fin du fichier.

Parce que la sortie qblast est dans un format différent de la sortie Blast normale, vous devrez utiliser un analyseur différent pour cela. L'analyseur est également situé dans le module NCBIWWW et, comme l'exemple NCBStandalone d'hier, vous devrez créer un analyseur avant de pouvoir l'analyser. L'utilisation de l'analyseur est identique à ce que j'ai montré hier et le résultat analysé est dans la même structure de données. Les interfaces autonomes et Web de BLAST renvoient les résultats avec la même structure de données. C'est utile. Cela signifie que vous n'avez pas à écrire de code une seule fois pour chaque style d'interface. Le code peut s'attendre à la structure de données Blast commune et ne pas savoir d'où proviennent les données.

Utilisation de BLAST local

J'avais espéré donner un exemple d'utilisation de la version en ligne de commande de BLAST. Il s'avère que je n'ai pas BLAST sur cet ordinateur portable et que je n'ai pas d'ensemble de données raisonnable pour le tester, et je ne télécharge pas toutes ces données via DSL vers la maison de Dan. Ce n'est pas si difficile et vous avez déjà appris à analyser les résultats, vous devriez donc pouvoir les récupérer dans la section intitulée 3.1.4 Exécuter BLAST localement dans le livre de cuisine Biopython.

Nous verrons cela pendant la conférence.

Pour installer BLAST et configurer certaines bases de données, il peut être utile de lire la documentation BLAST.

Faire la sortie FASTA

J'ai beaucoup parlé de l'analyse d'un enregistrement FASTA, mais qu'en est-il de l'autre ? Qu'en est-il de la conversion du FastaRecord en une chaîne au format FASTA ? Pour commencer, voici la définition de classe pour le FastaRecord d'il y a quelques jours. Faire la ligne de titre est simple. Son ">" suivi du titre suivi d'une nouvelle ligne (" ").

La ligne de séquence est plus compliquée. Cela peut être très long, ce qui signifie que je devrai diviser la séquence en parties et écrire chaque partie sur sa propre ligne. Pour l'instant, je vais utiliser 10 caractères par ligne, donc la première ligne de séquence contient les 10 premiers caractères, la seconde contient les 10 seconds, et ainsi de suite. (Dans la vraie vie, le nombre est d'environ 70. J'utilise 10, donc les exemples sont plus faciles à écrire et plus courts.)

Je peux utiliser la notation de sous-chaîne pour obtenir les différents champs. Voici une séquence de test et les quatre lignes que je veux en tirer. Ce dont j'ai besoin, c'est d'un moyen de commencer à 0 et de compter par 10. Il existe déjà une fonction Python intégrée nommée gamme() qui commence à 0 et compte par 1s. En l'occurrence, il prend en charge les positions de départ et la taille des pas en option. Si la taille du pas est de 2 alors il compte par 2. Si la taille du pas est de 10 alors il compte par 10. Voici quelques exemples. Je peux utiliser la taille de pas de la plage pour obtenir une liste d'indices pour le début de chaque sous-liste. Parce que je veux 10 caractères par ligne, la position de fin est +10 à partir de la position de départ. Voici à quoi cela ressemble, avec quelques morceaux à l'avant pour vous montrer ce qui se passe. Vous voyez comment la dernière ligne n'a que 7 caractères et non 10 ? Dans une tranche de sous-chaîne Python (le code qui ressemble à séquence[début:fin]) si la position finale est trop grande, elle est arrondie à la taille de la chaîne. C'est pourquoi dans ce qui suit, la taille de la sous-séquence demandée est de 10 caractères mais la séquence réelle n'a que 7 caractères.

J'en ai assez à ce stade pour créer une fonction qui pourrait s'avérer utile pour le débogage. Je vais imprimer un enregistrement FASTA à l'écran. Ces types de fonctions ont généralement des noms commençant par imprimer_ donc je vais nommer ça print_fasta.

Voici un exemple d'utilisation, basé sur le fasta_reader.py d'il y a quelques jours. C'est très étrange de ne voir que 10 caractères par ligne d'un fichier FASTA ! Je vais le changer à 70 caractères par ligne. Plus souvent, je souhaiterai la sortie au format FASTA sous forme de chaîne. Ce n'est pas trop dur. Au lieu d'imprimer le texte d'une ligne, j'ajouterai chacun à une liste, puis utiliserai " " pour joindre les éléments à la fin. J'aurais peut-être dû ajouter un " " à la fin des lignes jointes, de sorte que la dernière ligne ait une nouvelle ligne comme toutes les autres lignes. C'est difficile à juger et mon expérience dit qu'il est préférable que le dernier caractère ne soit pas une nouvelle ligne.

Certaines classes ont des formes de chaînes très naturelles. Les entiers sont facilement représentés par un nombre, par exemple. Pour obtenir la forme de chaîne d'un objet, vous pouvez utiliser le str fonction. Mais comme vous pouvez le voir, le str() d'un FastaRecord n'est pas si utile.

Il est facile de remplacer la représentation sous forme de chaîne par défaut à l'aide d'une méthode spéciale nommée __str__. Si la classe a un __str__ méthode alors str() appellera cette méthode pour obtenir la représentation sous forme de chaîne, sinon elle utilise la valeur par défaut pas très utile. (Pour bien comprendre cela, la commande "print" appelle d'abord str() sur un objet pour obtenir sa représentation sous forme de chaîne.)


La biologie

blastocyste est un parasite unicellulaire génétiquement diversifié au potentiel pathogène incertain qui colonise les intestins de l'homme et d'un large éventail d'animaux non humains. Sur la base de données moléculaires, l'organisme a été classé comme straménopile. Les organismes tels que les diatomées, les chrysophytes, les moisissures aquatiques et les filets visqueux sont d'autres exemples de straménopiles.

blastocyste les organismes isolés des humains sont communément appelés B. hominis. Cependant, en raison de la grande diversité génétique (même parmi les organismes isolés de l'homme) et de la faible spécificité de l'hôte, la désignation blastocyste sp. est considérée comme plus appropriée. Si un typage génétique est effectué, le sous-type (ST) doit également être noté conformément à la terminologie consensuelle.* Parmi les neuf ST trouvés à ce jour chez l'homme, les quatre ST les plus répandus sont ST1, ST2, ST3 et ST4. et peut être lié à la transmission zoonotique.

* Stensvold, C.R., Suresh, G.K., Tan, K.S., Thompson, R.A., Traub, R.J., Viscogliosi, E., Yoshikawa, H. et Clark, C.G., 2007. Terminologie pour blastocyste sous-types&ndasha consensus. Tendances en parasitologie, 23 (3), p.93-96.

Cycle de la vie

Le cycle de vie de blastocyste sp. n'est pas encore compris, y compris le stade infectieux et si (et laquelle des) diverses formes morphologiques de cet organisme polymorphe qui ont été identifiées dans les selles ou la culture constituent des stades biologiques distincts du parasite dans le tractus intestinal des hôtes. La forme du kyste (3&ndash5 µm) est supposée être un stade infectieux, mais n'est pas confirmée. La forme prédominante trouvée dans les échantillons de selles humaines est appelée forme vacuolaire (ou corps central) et est de taille variable (5&ndash40 µm, parfois beaucoup plus grande). La réplication semble se produire via la fission binaire. D'autres formes morphologiques (par exemple, les formes amiboïdes et granulaires) ont également été notées dans les échantillons de selles et/ou la culture, leur rôle biologique et leur devenir développemental éventuel nécessitent une enquête plus approfondie.

Hôtes

blastocyste a été détecté dans les selles d'humains et d'un large éventail d'animaux non humains (par exemple canidés, porcs, primates, rongeurs, oiseaux, etc.).

Distribution géographique

blastocyste sp. se trouve dans le monde entier. Les efforts pour caractériser la répartition géographique et la répartition des hôtes blastocyste les sous-types sont en cours.

Présentation clinique

Qu'il s'agisse blastocyste sp. (ou des sous-types particuliers de ceux-ci ou des souches particulières de certains sous-types) peuvent provoquer une maladie gastro-intestinale (infection symptomatique) chez l'homme continue d'être débattue et étudiée. blastocyste sp. a été détecté chez les personnes symptomatiques et asymptomatiques.


Termes et concepts

  • Clade
  • Maniraptora
  • Évolution
  • Thérapode
  • Avenue
  • Dromaéosaure
  • Troodontide
  • Thérizinosaure
  • Oviraptors
  • Protéines de collagène
  • DÉTRUIRE
  • Mutation
  • Mettre en doute
  • Format Fasta
  • Arbre phylogénétique
  • Évolution

Des questions

  • Que signifie l'acronyme DÉTRUIRE représenter?
  • Sur la base de vos recherches, dessinez un arbre généalogique qui comprend des oiseaux, des dinosaures, des reptiles et des mammifères.
  • Quels dinosaures ont des plumes ?

AutoFACT : un outil automatique d'annotation et de classification fonctionnelle

Fond: L'attribution de fonctions à de nouvelles données de séquences moléculaires est une étape essentielle dans les projets de génomique. Le processus habituel implique des recherches de similarité d'une séquence donnée par rapport à une ou plusieurs bases de données, un processus ardu pour les grands ensembles de données.

Résultats: Nous présentons AutoFACT, un outil d'annotation entièrement automatisé et personnalisable qui attribue des fonctions biologiquement informatives à une séquence. Les principales caractéristiques de cet outil sont qu'il (1) analyse les données de séquences nucléotidiques et protéiques (2) détermine la description fonctionnelle la plus informative en combinant plusieurs rapports BLAST provenant de plusieurs bases de données sélectionnées par l'utilisateur (3) attribue des voies métaboliques putatives, des classes fonctionnelles, des classes d'enzymes , les termes GeneOntology et les noms de locus et (4) génère une sortie aux formats HTML, texte et GFF pour la commodité de l'utilisateur. Nous avons comparé AutoFACT à quatre pipelines d'annotation bien établis. Le taux d'erreur d'annotation fonctionnelle est estimé à seulement entre 1 et 2 %. La comparaison d'AutoFACT avec la méthode traditionnelle d'annotation top-BLAST-hit montre que notre procédure augmente le nombre d'annotations fonctionnellement informatives d'environ 50 %.

Conclusion: AutoFACT servira d'outil d'annotation utile pour les petits groupes de séquençage manquant de personnel bioinformatique dédié. Il est implémenté en PERL et fonctionne sur les plateformes LINUX/UNIX. AutoFACT est disponible à http://megasun.bch.umontreal.ca/Software/AutoFACT.htm.

Les figures

Méthodologie AutoFACT. Les séquences sont classées…

Méthodologie AutoFACT. Les séquences sont classées dans l'une des six catégories d'annotations (boîtes violettes).…

Répartition des informations informatives versus non informatives…

Distribution des annotations informatives et non informatives. A. castellanii Les EST (5 130 clusters) ont été annotés…

50 % d'augmentation des annotations informatives par rapport aux meilleurs résultats BLAST par rapport au numéro de NCBI et aux bases de données UniRef90. La source d'annotation d'AutoFACT est indiquée entre parenthèses ().

Exemple de sortie HTML pour AutoFACT…

Exemple de sortie HTML pour l'annotation AutoFACT de Acanthamoeba castellanii Cluster EST ACL00000152. Automatique…

Comparaison des annotations AutoFACT à travers…

Comparaison des annotations AutoFACT sur quatre organismes phylogénétiquement divers précédemment annotés par des…


EPlant Cameline

ePlant aide les biologistes à visualiser les connexions naturelles entre les séquences d'ADN, les variations naturelles (polymorphismes), les structures moléculaires, les interactions protéine-protéine et les modèles d'expression génique en combinant plusieurs outils de visualisation de données avec une interface utilisateur zoomable.

ePlant se connecte à plusieurs services Web accessibles au public pour télécharger les dernières données sur le génome, l'interactome et le transcriptome pour un nombre quelconque de gènes ou de produits génétiques qui pourraient vous intéresser. Les données sont affichées avec un ensemble d'outils de visualisation qui sont présentés avec une hiérarchie conceptuelle à partir de grand à petit. Les liens entre les différentes vues permettent de souligner les liens entre plusieurs niveaux d'analyse.


DÉVERROUILLER LA CLASSE CIBLE DE PHOSPHATASE

Nous avons attiré une expertise scientifique de premier plan dans la biologie des maladies et la découverte de médicaments induites par la phosphatase pour libérer tout le potentiel des modulateurs allostériques ciblés sur la phosphatase. En oncologie, Anavo développe plusieurs programmes thérapeutiques de premier ordre et s'appuiera sur des partenariats autour de sa plateforme pour établir un riche pipeline dans plusieurs indications.

Anavo est soutenu par les investisseurs de premier plan M Ventures, INKEF Capital, Taiho Ventures et Bioqube Ventures.

Cibler l'un des tourniquets centraux de la biologie humaine

Les phosphatases et les kinases régulent l'activité de nombreuses voies moléculaires cruciales dans les cellules. En supprimant ou en ajoutant, respectivement, un groupe phosphate de protéines ou d'autres biomolécules, les phosphatases et les kinases affectent d'abord les niveaux d'activité de ces molécules et régulent ainsi la sortie globale de cascades de signalisation entières. Les déséquilibres dans ce processus peuvent conduire à une multitude de maladies.


Personnes

Régulation des gènes par épissage alternatif et désintégration de l'ARNm à médiation non-sens. La désintégration de l'ARNm à médiation non-sens (NMD) est un système de surveillance de l'ARN cellulaire qui reconnaît les transcrits avec des codons de terminaison prématurés et les dégrade. Nous avons découvert un grand nombre de formes d'épissage alternatives naturelles qui semblent être des cibles pour la NMD, et nous avons émis l'hypothèse qu'il pourrait s'agir d'un mode de régulation génique que nous avons appelé ROUILLER (épissage et traduction improductifs réglementés). Tous les membres conservés de la famille SR des régulateurs d'épissage ont une isoforme d'ARNm alternative non productive ciblée pour la NMD 1 . Étonnamment, le motif d'épissage pour chacun est conservé chez la souris et toujours associé à une région ultraconservée ou hautement conservée d'identité parfaite entre l'homme et la souris. Remarquablement, cela semble avoir évolué indépendamment dans chacun des gènes, suggérant qu'il s'agit d'un mode de régulation naturel. Nous utilisons RNA-Seq pour explorer l'omniprésence de la NMD dans de nombreuses espèces 2 , et de comprendre son comportement. Dans le cadre d'un moduleENCODER consortium, nous avons découvert le répertoire de cibles pour l'épissage alternatif chez la mouche, ainsi que des relations inattendues entre le développement de la mouche et du ver 3, 4 . Nous détaillons maintenant les régulateurs de la famille SR et explorons l'évolution de ce mécanisme de régulation de l'expression des gènes.

Prédiction de la fonction des protéines à l'aide de la phylogénomique bayésienne. Nous sommes inondés de protéines découvertes grâce à des projets de séquençage à haut débit. Comme seule une infime fraction d'entre eux a été caractérisée expérimentalement, les méthodes de calcul sont largement utilisées pour l'annotation automatisée. Malheureusement, ces prédictions ont jonché les bases de données d'informations erronées, pour diverses raisons, notamment la propagation d'erreurs et les défauts systématiques de DÉTRUIRE et méthodes associées. En collaboration avec le groupe de Michael Jordan, nous avons développé une approche statistique pour prédire la fonction des protéines qui utilise l'arbre phylogénétique d'une famille de protéines, comme structure naturelle pour représenter les relations entre les protéines. Nous superposons sur cette protéine toutes les fonctions connues dans la famille. Nous utilisons un modèle d'évolution des fonctions pour ensuite déduire les fonctions de toutes les autres fonctions protéiques. Même nos premières implémentations de cette méthode, appelées TAMISEUR (inférence statistique de la fonction à travers des relations évolutives) ont mieux fonctionné que d'autres méthodes largement utilisées 5 . Nous apportons actuellement de nombreuses améliorations au sous-jacent TAMISEUR algorithme et améliorer sa capacité à travailler sur un large éventail de données et à incorporer plus de données d'association expérimentales. SIFTER a été récompensé comme méthode la plus performante dans l'évaluation critique de l'annotation fonctionnelle 9 . Nous collaborons avec le projet ENIGMA au LBNL pour améliorer l'annotation à grande échelle. En collaboration avec Jack Kirsch, nous validons également expérimentalement les prédictions de fonction, en nous concentrant sur la famille Nudix. Nous sommes également impliqués dans le maintien du SCOP : Structural Classification of Proteins, une ressource clé pour comprendre les données de structure des protéines. Nous analysons donc les efforts de génomique structurale et orientons leurs orientations futures 8 . En utilisant des méthodes de noyau et des caractéristiques sélectionnées, nous construisons des systèmes pour reconnaître les anciennes relations évolutives des protéines.

Génomique personnelle. Nous avons un intérêt de longue date pour l'interprétation du génome personnel, y compris le développement d'un génome commun 6 , comprendre les bases des maladies mendéliennes à partir de génomes séquencés 10 , et l'organisation du projet d'évaluation critique de l'interprétation du génome ( CAGI ).

Génomique computationnelle
Régulation des gènes par épissage alternatif et surveillance de l'ARN.

La désintégration de l'ARNm à médiation non-sens (NMD) est un système de surveillance de l'ARN cellulaire qui reconnaît les transcrits avec des codons de terminaison prématurés et les dégrade. Il y a plusieurs années, nous avons découvert un grand nombre de formes d'épissage alternatives naturelles qui semblent être des cibles pour la NMD, et nous avons supposé qu'il pourrait s'agir d'un mode de régulation génique que nous avons appelé RUST (épissage et traduction non productifs régulés). Cela semble être confirmé par notre découverte que tous les membres conservés de la famille SR des régulateurs d'épissage ont une isoforme d'ARNm alternative non productive ciblée pour la NMD. Étonnamment, le motif d'épissage pour chacun est conservé chez la souris et toujours associé à une région ultraconservée ou hautement conservée de

100 nucléotides ou plus d'identité parfaite entre l'homme et la souris. Remarquablement, cela semble avoir évolué indépendamment dans chacun des gènes, suggérant qu'il s'agit d'un mode de régulation naturel. Nous utilisons des données de puces à ADN pour explorer l'omniprésence de la NMD chez l'homme et dans Drosophile, en collaboration avec Don Rio. Dans le cadre d'un consortium modENCODE, nous prévoyons de découvrir le répertoire de cis-sites réglementaires pour l'épissage alternatif chez les insectes. Les orientations futures comprennent le détail des régulateurs de la famille SR et l'exploration de l'évolution de ce mécanisme de régulation de l'expression des gènes.

1. Lareau LF, Inada M, Green RE, Wengrod JC, Brenner SE. 2007. Épissage improductif de gènes SR associés à des éléments d'ADN hautement conservés et ultraconservés. Nature 446 :926-929. doi: 10.1038/nature05676 [PDF 1.3M] [informations supplémentaires .9M]

2. Hansen KD, Lareau LF, Blanchette M, Green RE, Meng Q, Rehwinkel J, Gallusser FL, Izaurralde E, Rio DC, Dudoit S, Brenner SE. 2009. Identification à l'échelle du génome de formes d'épissage alternatives régulées à la baisse par la désintégration de l'ARNm non-sens dans Drosophile. PLoS Génétique 5:e1000525. doi: 10.1371/journal.pgen.1000525 [PDF .5M]

3. Celniker SE et al. 2009. Le projet modENCODE (organisme modèle ENCyclopedia Of DNA Elements). Nature 459:927-930. doi: 10.1038/459927a [PDF 1M]

Prédiction de la fonction des protéines à l'aide de la phylogénomique bayésienne.

Nous sommes inondés de protéines découvertes grâce à des projets de séquençage à haut débit. Comme seule une infime fraction d'entre eux a été caractérisée expérimentalement, les méthodes de calcul sont largement utilisées pour l'annotation automatisée. Malheureusement, ces prédictions ont jonché les bases de données d'informations erronées, pour diverses raisons, notamment la propagation d'erreurs et les défauts systématiques de BLAST et des méthodes associées. En collaboration avec le groupe de Michael Jordan, nous avons développé une approche statistique pour prédire la fonction des protéines qui utilise l'arbre phylogénétique d'une famille de protéines, comme structure naturelle pour représenter les relations entre les protéines. Nous superposons sur cette protéine toutes les fonctions connues dans la famille. Nous utilisons un modèle d'évolution des fonctions pour ensuite déduire les fonctions de toutes les autres fonctions protéiques. Même nos implémentations initiales de cette méthode, appelée SIFTER (inférence statistique de fonction par des relations évolutives) ont donné de meilleurs résultats que d'autres méthodes largement utilisées. Nous apportons actuellement de nombreuses améliorations à l'algorithme SIFTER sous-jacent et améliorons sa capacité à travailler sur un large éventail de données. Nous collaborons avec le Joint Genome Institute et de nombreuses bases de données de protéines pour améliorer l'annotation à grande échelle. En collaboration avec Jack Kirsch, nous validons également expérimentalement les prédictions de fonction, en nous concentrant sur la famille Nudix.

Engelhardt BE, Jordan MI, Muratore KE, Brenner SE. 2005. Prédiction de la fonction moléculaire des protéines par la phylogénomique bayésienne. PLoS Comput Biol 1:432-445. doi: 10.1371/journal.pcbi.0010045 [PDF 1.4M]

Métagénomique médicale et environnementale génomique personnelle.

Le projet mondial d'échantillonnage de l'océan Sorcerer II a révélé les séquences de millions de nouvelles séquences de protéines putatives, doublant sans doute le répertoire connu de protéines. Nous avons collaboré avec le Venter Institute pour analyser ces protéines, comprendre en quoi elles diffèrent de celles observées précédemment et découvrir d'anciennes relations entre elles. Nous développons une nouvelle méthode de regroupement qui aidera à attribuer des lectures de séquences individuelles et des contigs aux clades, et nous collaborons avec Jill Banfield pour l'appliquer à la communauté du drainage minier acide. Notre premier projet médical/métagénomique est de comprendre le rôle du microbiote intestinal dans la maladie de Crohn. La maladie de Crohn est connue depuis longtemps pour être associée à des communautés microbiennes dans l'intestin, mais l'étiologie exacte n'est pas claire. En échantillonnant explicitement ces communautés, nous visons à mieux comprendre comment elles causent la maladie. De plus, en étudiant l'évolution de la flore intestinale lors de l'arrêt des antibiotiques au long cours, nous espérons mieux comprendre l'action de ces médicaments sur le microbiote intestinal. Nous avons également un intérêt de longue date pour l'interprétation du génome personnel et le développement d'un génome commun.

1. Yooseph S et al. 2007. L'expédition Sorcerer II Global Ocean Sampling : élargir l'univers des familles de protéines. PLoS Biologie 5:e16. doi: 10.1371/journal.pbio.0050016 [PDF 3M]

2. Brenner SE. 2007. Le bon sens pour nos génomes. Nature 449:783-784. doi: 10.1038/449783a [PDF .2M]

Génomique structurale et complexes protéiques.

La génomique structurale vise à terme à fournir une structure expérimentale ou un modèle de haute qualité pour chaque protéine. Nous participons à la maintenance des bases de données SCOP : Structural Classification of Proteins et ASTRAL qui sont des ressources clés pour accéder et comprendre les données de structure des protéines. Nous analysons donc les efforts de génomique structurale et orientons leurs orientations futures. En utilisant des méthodes de noyau et des caractéristiques sélectionnées, nous construisons des systèmes pour reconnaître les anciennes relations évolutives des protéines. Nous sommes également impliqués dans le projet d'analyse des complexes protéiques, qui utilise la spectrométrie de masse, la microscopie électronique et la tomographie électronique pour comprendre les complexes protéiques et leur distribution cellulaire.

Chandonia JM, Brenner SE. 2006. L'impact de la génomique structurelle : attentes et résultats. Sciences 311:347-351. doi:10.1126/science.1121018 [PDF .2M] [support 1.2M]


Suffixe "-blast"

Améloblaste (améloblaste) : cellule précurseur impliquée dans la formation de l'émail dentaire.

Embryoblaste (embryoblaste) : masse cellulaire interne d'un blastocyste contenant des cellules souches embryonnaires.

Épiblaste (épi-blaste) : couche externe d'une blastula avant la formation des couches germinales.

Érythroblaste (érythroblaste) : cellule contenant un noyau immature trouvée dans la moelle osseuse qui forme des érythrocytes (globules rouges).

fibroblaste (fibroblaste) : cellules immatures du tissu conjonctif qui forment des fibres protéiques à partir desquelles se forment le collagène et diverses autres structures du tissu conjonctif.

Mégaloblaste (mégaloblaste) : érythroblaste anormalement volumineux qui résulte généralement d'une anémie ou d'une carence en vitamines.

Myéloblaste (myéloblaste) : globule blanc immature qui se différencie en cellules immunitaires appelées granulocytes (neutrophiles, éosinophiles et basophiles).

Neuroblaste (neuroblaste) : cellule immature dont dérivent les neurones et le tissu nerveux.

Ostéoblaste (ostéoblaste) : cellule immature à partir de laquelle l'os est dérivé.

Trophoblaste (trophoblaste) : couche cellulaire externe d'un blastocyste qui attache l'ovule fécondé à l'utérus et se développe plus tard dans le placenta. Le trophoblaste fournit des nutriments à l'embryon en développement.