Informations

Trouver des motifs protéiques en exécutant une analyse de séquence dans la protéine BLAST

Trouver des motifs protéiques en exécutant une analyse de séquence dans la protéine BLAST


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

J'ai exécuté la séquence suivante (en bas de la page) dans la protéine NCBI BLAST et elle a été identifiée comme une alcool déshydrogénase dépendante du Zn. Ensuite, je veux voir quels sont les motifs protéiques dans cette protéine. Où dans le programme est-il possible de voir les motifs ?

Merci d'avance!

Séquence:

MDRNRLAIVFPIFARCISAADFSTDLYLSEIYQQKVVTMKAAVITKDHTIDVKDTKLRPLNYGEALLEIE YCGVCHTDLHVKNGDFGDETGRISGHEGIGIVKQDGEGVTSLNAGDRASVAWFFKGCGHCEYCVSGNETL CRNVENAGYTVDGAIAEECIVVAEYSVRVPDGLDPAVASRITCAGVTTYKAVKVSQLQPGQWLAIYGYGR FRQSSPSICQDMYFNAKDEQLAYYAKELGGADMVINPKNEAAKIIQEKLGGAHATVVTAVAKSAFNSAVE AIRAGGRVVVVVAVGLPPPEKMDLSIPPRLVLVGIEVLGSLVGTREKEAFQFAAEGKVKPKVTKRKVEEI NQIFDEMEHGKFTGRMILPTHHIWIVIGWQSFSLYSQDVSQPQIFRLTSISPRYINKRSPKQPSLLKIIR STKTPNYALITGKRFWKSNIAGYVIPISMKTGISAMKPAEFQGMKVVSSSRTGKGLLLMPVTAPVLHGSS KAAAIANIVSAGMKRFAATLKMPVIRLTALQKNASSSPNTRSACQMVLILRLPAGSLARVPPIKQRFLSY SPDNGWPSMATGGLGNLALRYAKTCISTPKMNSSHTTPKSWAAQIWSSIRKTKLPKSFRKSSGEHTRRWR LLPNPPLTRLLRLSARVAVLLLLSPLVCLLLKKWIAFLLVWCLSVSKSVPWSERGKRRPSSLQPKVRSSR KLPSVKSKKSTKSLTKWNMVNSQAVYYQPITYGSSAGNRFPYIRKMYLSRRFFDPLSLRDISTKGSHHES SRHYRSYDRRERHQITPSELRGSASGNRILRGMSYRSPCEKRGFRRNRQNFRARYRYRQAGRGRGYFSEC RPRQCCMVLQRLRPLRILCQRENALPQRKCRLYGRRYSRRMHRRRRILGPRARWSSCGCQQDHLRGCNHL SSKGFSATARTMAGHLWLRAVAIPFDMETPRHVFQRQRTARILRQRVGRRRYGHQSEKRSCQNHSGKARG STRDGG DGCCQIRLLGCGYPRGWPCCCCCRRWSASSKNGFEHSSSFGACRYRSPRFLGRNAGKGGLPVCS RRGQAESYQASRRNQPNLRNGTWIHRPYDITNPSHILYVMGWYHTACEFTMFHFVKDLVDFFDFTLGNFR LDLTFGCKLEGLLFPRSDQGTDFDTDKHQTRRNAQIHFFRRRQTNGDNNNNTATRADSLNSRVKGGFGNS RHHRRVCSPELFLNDFGSFVFRIDDHICAAQLFGVVCELFIFGVEIHVLAYRRARLPKPPVAIDGQPLSG LLRNLYCFIGGYTRASDPAGNRRIKTIWHADRVFGDDDAFFCYSAVNRITGIFNVAAKRFIPADTIFAMA AAFEEPCNTGAVTGIQRSNPFPVLLDDTYTFMPNSAGFIAEIPVFHMEIGMTYPAIFDFQKRFPVIQRAF GVFHVDRMIFSNDGCFHGDYLLLIYLGEIEVSRKICGDTSCEYRENDCQPITIHYMWVGNIIRPVNLPCS ISSKIWLISSTLRLVTFGLTLPSAANWKASFSRVPTKEPRTSIPTSTKRGGMLKSIFSGGGRPTATTTTT RPPARIASTAELKADLATAVTTVACAPPSFSMILAASFFGLMTISAPPNSLAYASCSSLALKYMSWHIEG LDCLNRPPMASHCPGCSETFTALVVTPAQVILLATAGSRPSGTRTEYSATTMHSSAIAPSTVPAFSTLRQ SVSFPLTQYSQWPQPLKNHATLARSPAFREVTPSPSCLTIPIPSCPEILPVSSPKSPFFTWRSVHTPQYS ISRSASPFRGRNLVSFTSIVSLVMTAAFMVTTFCYISERRSVEKSAAEIHLANIGKTIASRLRSICDGLV ISYGLIYHVPFRQRFGFLRLYAWLSAPYLRLQTGRPPFPAFRPRNLGLRYRQAPNEEECSNPFFQEEADQ RRQQQQHGHPRGPQQPSRRIWQQPSPPSRVLPRAFPEFWQLRFSDPYLRRPTLWRSMRAVHLWRNTCLGI SKGIATARSHRW PAIVRAVAEKPLLLYRWLHPRKSCWQPQDQDHLARGPSIRRRRCILLLRRQPYNRHFQ RCGKAFHSRHNIRNGRSLRTMQHWRGHRHSEKPLPRPARYLYLHALKFCRFHRRNPRFSHGDRYDIPRNI RFPEALPRNSEGVIWCLSRRSYDLRLLSWLPPRPARYLYLHALKFCRFHRRNPRFSHGDRYDIPRNI RFPEALPRNSEGVIWCLSRRSYDLRLLSWLPPFVDISRRD


Recherche de MOTIF
Tout d'abord, ce n'est pas possible dans BLAST (du moins pas directement). Il existe de nombreux outils pour rechercher des motifs dans votre séquence. Je pense qu'une bonne façon de commencer est d'utiliser la recherche MOTIF. Celui-ci recherche des motifs dans votre séquence en fonction des informations dans : Pfam, NCBI-CDD, PROSTIE PATTERN et PROSITE PROFILE (vous pouvez sélectionner celui que vous souhaitez utiliser). De plus, vous pouvez également utiliser INTERPRO (qui recherche également dans plusieurs bases de données, notez que la recherche INTERPO peut prendre un certain temps mais donnera une belle vue graphique). Si vous voulez trouver de nouveaux motifs, vous pouvez utiliser MEME (comme suggéré par @mxwsn). Cependant, pour ce faire, vous devez trouver (ou avoir) un ensemble de séquences qui ressemblent à votre séquence pour trouver des motifs. Parce que bien sûr, l'algorithme n'est pas capable de trouver des motifs dans une séquence car il doit comparer un ensemble de séquences pour trouver des motifs fréquents, ce qui pourrait vous intéresser.
Donc résumer vous pouvez utiliser la recherche MOTIF (ou INTERPRO etc… ) pour trouver des motifs dans votre séquence qui sont déjà connu. Ou rassemblez un ensemble de séquences et trouvez nouveaux motifs en eux à l'aide de MEME ou d'un outil similaire.


toutefois, comment avez-vous conclu que votre séquence est uneAlcool déshydrogénase Zn-dépendante? Parce que BLASTing la séquence que vous avez fournie donnera des correspondances avec cette enzyme mais ne couvrant qu'environ 17%. Néanmoins, un bon moyen de trouver des informations sur votre séquence est en effet de trouver des motifs et de comparer la séquence avec les HMM ou les PSSM de protéines connues. Par exemple, la recherche MOTIF donnera ces résultats :

PROSITE : Signature d'alcools déshydrogénases contenant du zinc. PFAM : Zinc-binding déshydrogénase Alcool déshydrogénase domaine de type GroES ET BEAUCOUP PLUS>>>

La recherche de PFAM vous donnera ceci :

Notez que le deuxième domaine (Déshydrogénase liant le zinc) n'est pas complètement présent, plus d'informations peuvent être vues dans l'aperçu détaillé :

Je vous conseillerais également de jeter un œil à l'importance de ces résidus "manquants" (par exemple, utiliser un MSA et examiner la conservation). Parce que votre séquence pourrait contenir ces domaines mais cela ne signifie pas nécessairement que cette EST UN Alcool déshydrogénase Zn-dépendante. Il peut être non fonctionnel par exemple.


Trouver de novo motifs présents dans vos séquences de protéines, vous devez utiliser MEME ou un autre outil de recherche de motifs au lieu de BLAST.

MEME découvre des motifs inédits (motifs récurrents et de longueur fixe) dans vos séquences.


CABRA : algorithme de regroupement et d'annotation des résultats d'explosion

Les recherches de l'outil de recherche d'alignement local de base (BLAST) sont fréquemment utilisées pour rechercher des séquences homologues et pour annoter une protéine de requête, mais la taille croissante des bases de données de protéines rend difficile l'examen de tous les résultats d'une recherche de similarité.

Résultats

Nous avons développé un outil Web appelé Cluster and Annotate Blast Results Algorithm (CABRA), qui permet une recherche BLAST rapide dans une variété de protéomes de référence mis à jour, et fournit une nouvelle façon d'évaluer fonctionnellement les résultats par le regroupement ultérieur des hits et l'annotation de les grappes. L'outil est accessible à partir de la ressource Web suivante : http://cbdm-01.zdv.uni-mainz.de/

Conclusion

L'algorithme de regroupement et d'annotation des résultats de l'explosion simplifie l'analyse des résultats d'une recherche BLAST en fournissant un aperçu des annotations du résultat organisées en grappes qui peuvent être modifiées de manière itérative par l'utilisateur.


Caractérisation biochimique d'une protéine GH70 de Lactobacillus kunkeei DSM 12361 avec deux domaines catalytiques impliquant une activité sucrase ramifiée

La bactérie fructophile Lactobacillus kunkeei a des applications prometteuses en tant que probiotiques favorisant la santé des abeilles et des humains. Nous rapportons ici la synthèse d'un dextrane hautement ramifié par L. kunkeei DSM 12361 et caractérisation biochimique d'une enzyme GH70 (GtfZ). L'analyse des séquences a révélé que GtfZ abrite deux noyaux catalytiques distincts (CD1 et CD2), censés avoir une spécificité pour la glucansucrase et la sucrase ramifiée, respectivement. GtfZ-CD1 n'a pas été caractérisé biochimiquement en raison de son expression infructueuse. Avec seulement le saccharose comme substrat, GtfZ-CD2 s'est avéré catalyser principalement l'hydrolyse du saccharose et la synthèse du leucrose. Lorsque le dextrane était disponible comme substrat accepteur, GtfZ-CD2 présentait une activité transglycosidase efficace avec le saccharose comme substrat donneur. L'analyse cinétique a montré que la réaction de transglycosylation catalysée par GtfZ-CD2 suit un mécanisme Ping Pong Bi Bi, indiquant la liaison à son tour des substrats donneurs et accepteurs dans le site actif. La caractérisation structurelle des produits a révélé que GtfZ-CD2 catalyse la synthèse de branches liées au glucosyle (α1 → 3) sur le dextrane, entraînant la production de produits de α-glucane en peigne hautement ramifiés. Ces (α1 → 3) branches peuvent être formées sur des positions adjacentes, comme montré lorsque l'isomaltotriose a été utilisé comme substrat accepteur. La modélisation d'homologie de la structure des protéines GtfZ-CD1 et GtfZ-CD2 suggère fortement que les différences d'acides aminés dans les motifs conservés II, III et IV dans le domaine catalytique contribuent à la spécificité du produit. Notre présente étude met en évidence la capacité des bactéries lactiques bénéfiques à produire des α-glucanes structurellement complexes et fournit de nouvelles informations sur le mécanisme moléculaire d'une sucrase ramifiée (α1 → 3).

Ceci est un aperçu du contenu de l'abonnement, accessible via votre institution.


3. Matériels et méthodes

3.1. Considérations techniques PepFun

Les fonctionnalités de Pepfun ont été conçues à l'origine sous le système d'exploitation Ubuntu 16.04. Cependant, le projet peut être installé dans n'importe quel environnement virtuel Conda avec les dépendances requises, c'est-à-dire les outils tiers pour exécuter l'analyse bioinformatique et chimique tels que Biopython et RDKit. PepFun peut être utilisé sous d'autres systèmes d'exploitation avec les chemins correspondants fournis. Un guide pour exécuter différents exemples est disponible dans le référentiel de code https://github.com/rochoa85/pepfun consulté le 12 mars 2021.

3.2. Fonctionnalités PepFun

3.2.1. Fonctionnalités basées sur des séquences

Cette section est divisée en trois catégories principales : les alignements, les propriétés et une prédiction de conformation. Les alignements impliquent la mise en œuvre de matrices de notation spécifiques à la position pour effectuer des correspondances position par position entre la requête et les peptides du sujet [28]. De plus, une fonction blastp en ligne est fournie avec des paramètres optimisés pour l'alignement des peptides contre des bases de données massives [36]. Ceux-ci sont différents des paramètres communs utilisés pour l'alignement des séquences de protéines, qui reposent sur l'ouverture et la notation des lacunes associées aux événements d'évolution, qui ne sont pas nécessaires pour l'analyse basée sur les peptides.

Les propriétés des peptides sont calculées à l'aide de stratégies bio- et chimico-informatiques qui ont été largement testées et validées dans le passé. Plus précisément, la séquence d'acides aminés est utilisée pour obtenir des informations à partir des paramètres d'acides aminés rapportés, y compris l'hydrophobie [23], les charges et les propriétés du projet ProtParam telles que l'aromaticité, l'indice d'instabilité et le point isoélectrique [9]. La séquence d'acides aminés peut également être utilisée pour calculer des règles empiriques associées à la synthèse et à la viabilité de la solubilité du peptide. L'identification de certains motifs au sein de la séquence peptidique peut suggérer si cela pourrait restreindre l'analyse expérimentale [26]. Plus le nombre de règles violées est grand, plus la probabilité d'être synthétisée et solubilisée avec succès est faible. Des exemples de telles règles sont si le nombre d'acides aminés chargés et/ou hydrophobes dépasse 45 % de la séquence, ou si la charge peptidique totale absolue à pH 7 est supérieure à 1, alors il n'est probablement pas possible de la synthétiser. La liste complète des règles est détaillée dans le fichier README de code et les rapports générés. Enfin, la représentation SMILES du peptide est utilisée comme référence pour calculer un certain nombre de propriétés disponibles à partir du package RDKit, notamment le nombre de donneurs et d'accepteurs d'hydrogène, le poids moléculaire et le coefficient Crippen logP [24], qui est une estimation de le coefficient de partage octanol/eau en utilisant l'approche Ghose/Crippen disponible dans le projet RDKit.

Avec les informations de séquence, il est également possible de prédire un conformère du peptide en utilisant des protocoles disponibles dans RDKit. Plus précisément, le peptide SMILES est utilisé comme entrée, qui est généré selon une convention standard de numération des atomes, permettant la création d'un fichier PDB avec les résidus numérotés et classés en fonction de leurs liaisons peptidiques [37]. La méthode utilisée dans RDKit pour prédire le conformère est l'approche de la géométrie de la distance [38]. Elle consiste à calculer une matrice de bornes de distance qui est lissée à l'aide d'un algorithme de lissage de bornes de triangles. Ensuite, une matrice de distance aléatoire qui satisfait la matrice de limites est générée. La matrice de distance est intégrée en trois dimensions, produisant les coordonnées correspondantes qui sont nettoyées à l'aide de champs de force tels que le Merck Molecular Force Field (MMFF94) [39].

3.2.2. Fonctionnalités basées sur la structure

Compte tenu de la disponibilité des structures complexes peptide et protéine-peptide (par exemple, de la PDB), un ensemble de fonctions PepFun a été conçu pour analyser leurs propriétés et interactions. PepFun utilise le package DSSP v3 pour extraire les éléments de structure secondaire, ainsi que le calcul de la surface de solvant accessible relative pour chaque résidu dans le peptide [40].

L'analyse des interactions implique le calcul des liaisons hydrogène potentielles et des contacts non liés entre le peptide et la protéine à travers l'interface. Les liaisons hydrogène potentielles sont calculées avec DSSP, et une visualisation de l'interaction est générée à l'aide du module igraph de python [41]. Plus précisément, le peptide et les résidus protéiques qui interagissent sont représentés par des nœuds, et les liaisons hydrogène potentielles sont représentées par des lignes et leur largeur dépend du nombre de liaisons hydrogène détectées par paire de résidus. La disposition du graphique peut changer selon que le peptide est linéaire ou cyclique. Les contacts non liés sont calculés à l'aide de modules Biopython capables de détecter tous les atomes d'acides aminés interagissant en utilisant les distances entre les atomes. Un seuil doit être fourni pour définir un contact. En règle générale, un seuil de 4,0 est utilisé.

3.2.3. Fonctions de personnalisation des bibliothèques de peptides

En plus des classes conçues pour exécuter des fonctionnalités basées sur des séquences ou des structures, un ensemble de fonctions est disponible pour générer et analyser le contenu des bibliothèques de peptides. Les bibliothèques - à partir de zéro - peuvent être construites suivant des distributions uniformes des acides aminés, ou basées sur des modèles requis dans les séquences. Les modules combinatoires disponibles en python sont utiles pour générer rapidement la population de séquences, qui incluent l'utilisation d'acides aminés non naturels (c.

3.3. Test de PepFun avec des ensembles de liants peptidiques connus

Pour tester la mise en œuvre de PepFun, deux systèmes protéine-peptide bien connus avec des ensembles disponibles de liants peptidiques ont été utilisés. L'un implique le complexe majeur d'histocompatibilité (CMH) de classe II, qui possède un vaste ensemble de données de liants peptidiques disponibles pour différents allèles [42]. Un ensemble de peptides avec des données de bioactivité ( I C 50 < 50 nM ) a été choisi pour analyser la distribution de plusieurs propriétés au sein de l'ensemble de données [43]. La bibliothèque contient 655 peptides composés de 15 acides aminés de longueur. Les structures peptidiques ont été modélisées en complexe avec l'allèle MHC classe II DRB1*0101, avec PDB id 1t5x. La modélisation a consisté à générer la nouvelle séquence par des substitutions simples itératives de la matrice peptidique. Les mutations ont été effectuées à l'aide du package fixbb de Rosetta [44], qui a été choisi sur la base d'une référence précédente d'autres protocoles de mutation disponibles [45]. Après chaque substitution, le rotamère le plus probable d'un dictionnaire de conformations dépendantes du squelette est sélectionné et les atomes de la chaîne latérale sont relaxés avec le squelette fixé.

Le deuxième système est une sérine protéase, la granzyme B, qui dispose de données de substrats physiologiquement actifs [46], stockées dans la base de données MEROPS [47]. Au total, 599 peptides de 8 acides aminés ont été sélectionnés. Tous les peptides ont été modélisés en utilisant la structure avec PDB id 1iau comme référence, sur la base de la méthodologie expliquée pour le système précédent.


MUSCLE

MUSCLE signifie UMltiple Sséquence Ccomparaison par Log- El'attente. MUSCLE est censé atteindre à la fois une meilleure précision moyenne et une meilleure vitesse que ClustalW2 ou T-Coffee, selon les options choisies.

Note importante: Cet outil peut aligner jusqu'à 500 séquences ou une taille de fichier maximale de 1 Mo.

Si vous utilisez ce service, merci de citer la publication suivante : Les API des outils de recherche et d'analyse de séquences EMBL-EBI en 2019

Veuillez lire la documentation d'aide et la FAQ fournies avant de demander de l'aide à notre équipe d'assistance. Si vous avez des commentaires ou rencontrez des problèmes, veuillez nous en informer via le support EMBL-EBI. Si vous prévoyez d'utiliser ces services pendant un cours, veuillez nous contacter. Lisez notre Avis de confidentialité si vous êtes préoccupé par votre vie privée et la façon dont nous traitons les informations personnelles.

EMBL-EBI, Wellcome Trust Genome Campus, Hinxton, Cambridgeshire, CB10 1SD, Royaume-Uni +44 (0)1223 49 44 44


Fond

De nombreux projets de séquences du génome entier ont été achevés ou sont en cours, couvrant un large éventail d'espèces parmi différents ordres. Les séquences du génome fournissent de nouvelles informations sur l'évolution et la régulation des gènes qui auraient été impossibles sans ces efforts de séquençage à grande échelle. Alors qu'une variété de stratégies de séquençage ont été appliquées, la plus courante actuellement utilisée et la stratégie choisie pour le génome bovin repose principalement sur le séquençage du génome entier (WGS) et l'assemblage des lectures de séquençage basé sur le chevauchement de la similarité des séquences. L'assemblage bovin sera complété par une couverture beaucoup plus faible de séquences provenant de clones à grand insert (Bacterial Artificial Chromosome, BAC) pour fournir des connexions entre les contigs de séquences non chevauchantes qui représentent des emplacements chromosomiques très proches les uns des autres. Une construction plus complète de la séquence du génome ajoute des informations provenant des cartes physiques et génétiques à la séquence WGS et BAC pour ordonner les contigs à plus grande échelle. Un niveau intermédiaire de résolution et un contrôle critique de l'exactitude des autres méthodes peuvent être fournis en déterminant si l'orientation, l'ordre et l'espacement appropriés des exons dans les gènes exprimés connus sont maintenus dans la construction. Cette approche nécessite la connaissance de la séquence de transcription exprimée à comparer à la construction du génome.

Une autre utilisation de la séquence de transcription est dans l'annotation, une clé de l'utilité du séquençage du génome entier. Des projets précédents de séquençage d'ADNc de pleine longueur ont établi l'importance des séquences d'ARNm dérivées expérimentalement pour produire des modèles de gènes qui établissent des limites exon-intron précises [1-5]. Ces projets ont fourni des informations vitales sur les formes d'épissage alternatives de produits géniques qui génèrent des variations de forme et de fonction considérées comme un facteur clé de la diversité de l'expression et du phénotype. Les séquences FLIC ont également aidé à faire la distinction entre l'épissage alternatif et la duplication de gènes ou les pseudogènes, une procédure qui est difficile et sujette aux erreurs si elle est basée uniquement sur des séquences EST groupées.

L'autre utilisation principale des séquences FLIC a été la génération de séquences protéiques prédites, fournissant une ressource pour soutenir les approches protéomiques et l'analyse comparative pour révéler les détails de la fonction des protéines. Cet objectif nécessite une reconstruction précise des parties CDS des transcrits authentiques exprimés dans les tissus cibles, ce qui peut être problématique avec les EST groupés comme mentionné ci-dessus.

Le présent effort a été entrepris pour soutenir toutes les utilisations potentielles des données bFLIC. Le Consortium international de séquençage du génome bovin [6] dirigé par le Baylor College of Medicine a récemment publié le deuxième assemblage du génome à couverture 6 fois (Worley, K. communication personnelle). Le raffinement de l'assemblage sera facilité par l'incorporation des bFLIC dans le processus de modélisation et d'assemblage des gènes, de la même manière que leur utilité dans l'assemblage des génomes d'autres organismes. Les bFLIC soutiendront également les efforts du NCBI et de l'ENSEMBL pour dériver des modèles de gènes précis et dériver des bases de données de séquences de protéines prédites. En ce sens, la présente étude est similaire aux précédents projets d'ADNc complets réalisés pour l'homme [1], la souris [3] et d'autres espèces [5,7]. Cependant, une approche différente a été utilisée pour générer les données que dans les efforts décrits précédemment, car la première étape de ce projet a utilisé le séquençage de bibliothèques normalisées de tissus regroupés [8,9] qui n'avaient pas été construites par des procédures pour enrichir clones de longueur, car de telles procédures pourraient potentiellement introduire un biais qui réduirait la diversité de l'ARNm observé. De plus, un objectif principal du projet était de développer une méthode pour sélectionner de manière cohérente des clones CDS complets à partir de ces bibliothèques sur la base de la comparaison des séquences d'extrémité 5' à un seul passage avec la base de données d'ARNm de la séquence de référence humaine [10] (RefSeq).

Ce rapport caractérise les séquences de clones de CDS complets bovins sélectionnés avec une méthode utilisant les données de séquence EST de l'extrémité 5' comme entrée. Cette méthode a efficacement identifié les homologues bovins apparents des séquences d'ARNm RefSeq humaines, collecté la séquence d'insertion complète et annoté les bFLIC résultants avec les GeneID, le produit, les éléments répétitifs et les séquences protéiques prédites. La méthode décrite devrait être particulièrement utile pour générer des séquences de protéines complètes et prédites pour des organismes avec des bases de données matures de séquences d'autres espèces dans l'ordre (par exemple d'autres mammifères) mais non incluses dans des projets de séquences de génomes complets. Le succès de la méthode a été caractérisé par la comparaison des séquences bFLIC à l'ARNm de Refseq humain et à l'UTRdb de mammifère, [11]. Étant donné que l'enquête a été lancée avant la libération du génome bovin assemblé, la comparaison directe entre la séquence génomique bovine et la séquence bFLIC était problématique.

Sans séquence d'ADNc génomique ou CDS complète disponible, il est de pratique courante de s'appuyer sur des groupes de gènes tels que Unigene [12] ou TIGR Gene Indices [8,9,13,14] pour les prédictions de transcription. Ces assemblages consensus dérivés de calcul contenant des cadres de lecture ouverts (ORF) sont générés à partir de lectures en un seul passage à travers des bibliothèques d'ADNc. Ces grappes fournissent une ressource très importante pour les modèles et produits génétiques putatifs. Le TIGR Bos taureau Index des gènes (BtGI) a été comparée à des séquences pleines de CDS bovines pour confirmer l'existence de transcrits déterminés expérimentalement dans les grappes calculées. Cette caractérisation des groupes de gènes en séquences CDS complètes peut aider les chercheurs à interpréter la signification de leurs recherches par rapport aux bases de données de groupes de gènes.


2. Matériels et méthodes

Dans cette section, nous décrirons l'architecture globale de notre approche de détection et de correction. Ensuite, nous décrivons la génération de l'ensemble de données et la façon dont nous générons un arbre phylogénétique à partir d'affectations taxonomiques. Ensuite, nous discutons de notre algorithme de détection pour trouver des séquences mal classées. Ensuite, nous décrivons notre approche pour proposer des affectations taxonomiques pour les séquences identifiées comme mal classées. Enfin, nous décrirons l'analyse de sensibilité sur le changement des différents paramètres pour proposer les affectations taxonomiques.

2.1 Un aperçu de la méthode

La figure 1 présente un aperçu de notre approche. Les fichiers de la base de données NCBI'NR ont été téléchargés à partir de (ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/) le 20 octobre 2018. Les informations taxonomiques ont été obtenues à partir de fichiers XML sur NCBI (https:/ /ftp.ncbi.nlm.nih.gov/blast/temp/DB\_XML/). CD-HIT ( Fu et al., 2012) (version v4.6.8-2017-1208) a été utilisé pour regrouper les séquences de protéines NR en clusters à 95% de similarité en utilisant les paramètres suivants (-n 5 -g 1 -G 0 -aS 0.8 -d 0 -p 1 - T 28 -M 0). Ces paramètres utilisent une longueur de mot de 5 et nécessitent que l'alignement des séquences courtes soit d'au moins 80% de sa longueur. L'acquisition des données, le prétraitement et le regroupement ont duré environ 3 jours. La partie détection et correction a duré environ 8 h.

Vue d'ensemble de l'architecture de la méthode proposée pour détecter des séquences taxonomiquement mal classées dans la base de données NR. Le diagramme montre l'ensemble de données brutes et les étapes du travail proposé

Vue d'ensemble de l'architecture de la méthode proposée pour détecter des séquences taxonomiquement mal classées dans la base de données NR. Le diagramme montre l'ensemble de données brutes et les étapes du travail proposé

Nous avons pris les fichiers FASTA de la protéine NR qui ont les lignes de définition contenant des annotations de différentes bases de données et généré le format BoaG qui a pris environ 2 h. Chaque ligne de définition dans les données brutes comprend l'ID de la protéine, le nom de la protéine suivi d'un nom d'organisme entre crochets, par ex. « >AAB18559 produit protéique sans nom [E. coli str. K-12 substr. MG1655]’. BoaG est un langage spécifique à un domaine qui utilise une infrastructure basée sur Hadoop pour les données biologiques ( Bagheri et al., 2019). Un programme BoaG est soumis à l'infrastructure BoaG. Il est compilé et exécuté sur un cluster Hadoop distribué pour exécuter une requête sur la base de données au format BoaG des données brutes. BoaG dispose d'agrégateurs qui peuvent être exécutés sur l'ensemble de la base de données ou sur un sous-ensemble de la base de données en tirant parti de la conception de schémas basée sur protobuf optimisée pour un cluster Hadoop pour les données et le calcul. Ces agrégateurs sont similaires, mais sans s'y limiter, aux agrégateurs que l'on trouve traditionnellement dans les bases de données SQL et les bases de données NoSQL comme MongoDB. Un script BoaG nécessite moins de lignes de code, offre une efficacité de stockage et une analyse à grande échelle automatiquement parallélisée.

2.1.1 Génération du jeu de données

Pour décrire notre ensemble de données, soit D désigne l'ensemble de données sur les protéines et le clustering dans notre étude : D = < P , C , , >⁠ . Ici, P = < P 1 , P 2 , … , P m > est un ensemble de toutes les protéines de la base de données NR. C = < C 1 , C 2 , … , C n > représente un ensemble de tous les clusters à 95% de similarité. | P | et | C | dans notre ensemble de données sont d'environ 174 M et 88 M, respectivement. ?? est un ensemble d'affectations taxonomiques pour les protéines, et est un ensemble de fonctions dans la base de données NR. Dans ce travail, nous nous concentrons sur l'exploration des affectations taxonomiques.

Dans la définition 1, chaque séquence protéique appartient à exactement un groupe à 95% de similarité, et chaque groupe a une séquence représentative. Si une protéine n'est pas identique en séquence et en longueur, elle tombera dans un groupe sans autre membre.

2.1.2 Génération d'un arbre phylogénétique à partir d'affectations taxonomiques

Nous obtenons la liste des affectations taxonomiques qui proviennent de différentes bases de données (révisées manuellement et créées par ordinateur) et construisons un arbre phylogénétique en utilisant la bibliothèque ETE3 ( Huerta-Cepas et al., 2016). Cette bibliothèque utilise la base de données taxonomique NCBI qui est mise à jour fréquemment.

Par exemple, la séquence protéique AAB18559 a des affectations taxonomiques de « 511 145 » et « 723 603 » qui sont chacune apparues une fois.

Dans la définition 3, les annotations de GenBank, trEMBL et PDB sont calculées par calcul, tandis que les annotations de RefSeq et SwissProt sont examinées manuellement. Par exemple, prov (511145) = GenBank, ce qui signifie que l'identifiant fiscal "511 145" pour la séquence AAB18559 provient de la base de données GenBank.

Probabilité d'annotation

Dans la définition 4, A i , un Comp représente l'annotation calculée par calcul (Comp) à partir de bases de données, c'est-à-dire GenBank, trEMBL, PDB et A i , un Rev désigne l'annotation révisée (Rev) de RefSeq, SwissProt. Une annotation peut provenir à la fois de bases de données révisées et créées par calcul. Nous utilisons un facteur de pondération conservateur, w, pour indiquer l'importance de l'annotation expérimentale (révisée manuellement) dans laquelle w est un nombre entier et w 1 ⁠ .

Pour une protéine particulière Pje, nous définissons l'annotation la plus probable (MPA) comme MPA ( P i ) = A i , j comme une annotation avec la probabilité la plus élevée parmi l'ensemble d'annotations. De plus, nous définissons l'annotation la moins probable (LPA), avec la probabilité la plus faible, qui pourrait potentiellement être mal classée comme LPA ( P i ) = A i , k ⁠ , dans laquelle i ≠ j ⁠ .

2.2 Approche pour détecter les erreurs de classification taxonomique

Algorithme 1 L'algorithme de détection de mauvaise affectation NR. L'entrée provient de la requête BoaG (Matériel supplémentaire)

1: procédure Détecter les erreurs d'affectation D

2: NR Longueur ← | P | m = 174 M protéines

3: tandis que i ≤ NRLlongueur faire

5: Si mal assigné (phylo) && non conservé(Pje) alors

6 : print (erreur d'affectation trouvée dans Pje)

7: procédure PhyloTreePje

8 : ncbi ← ncbiTAXA ( ) ▹ utilisé pour générer l'arbre de phylogénie

9 : phyloTree ncbi . get _ topology ( P i ) À partir de la liste des taxons

10: pour A i , a dans ( P i ) faire

11 : V a ← prob ( A i , a ) , liste ( freq ( A i , a ) , prov ( A i , a ) )

12: revenir phyloTree.

Notre approche est la suivante : tout d'abord, nous exécutons une requête BoaG (Fig. supplémentaire S1 ) sur la base de données NR. Cette requête s'exécute sur la base de données NR complète dans le cluster Hadoop. L'algorithme 1 décrit l'approche de détection des séquences mal classées. Il itère sur l'ensemble de la base de données NR. A la ligne 4, il faut une protéine Pje et génère un arbre phylogénétique à partir de l'ensemble des affectations taxonomiques pour Pje. Ensuite, à la ligne 5, il vérifie s'il y a une erreur de classification. Si l'ancêtre commun le plus bas (ACL) est le niveau de la racine, cela signifie qu'il existe une distance considérable entre les affectations taxonomiques pour cette séquence protéique particulière. Par conséquent, il existe une erreur d'affectation potentielle parmi la liste des affectations taxonomiques en raison de la contamination de l'échantillon, d'une erreur dans la méthode de calcul ou de la saisie de données par les chercheurs qui ont déposé la séquence. Nous appelons cela une violation ou un conflit racine. Nous considérons également les violations du super-royaume, du phylum, de la classe, de l'ordre et de la famille. De plus, nous avons examiné les protéines hautement conservées pour éliminer les faux positifs, car les protéines conservées peuvent apparaître dans des espèces éloignées les unes des autres, c'est-à-dire appartenant à différents domaines de l'arbre phylogénétique. Nous n'avons pas supprimé la liste des protéines conservées dans l'ensemble de données, car elles contiennent des informations taxonomiques qui ont été utilisées pour proposer une affectation taxonomique pour les séquences mal classées. Présumer Pje appartient à Cj. Une fois que nous avons détecté la violation dans Pje, on regarde le cluster Cj et considérer l'affectation taxonomique la plus fréquente comme le bon taxon. Les détails sont présentés à la section 2.3.

L'algorithme 1 nécessite un temps O ( | P | * | τ | ). Ici, | P | est la taille des protéines dans la base de données NR et | | est la limite supérieure du nombre d'affectations taxonomiques par protéines. A la ligne 5, mal attribué(phylo) vérifie si la LCA de l'arbre généré présente une violation de racine ou toute autre violation. L'expression conservée ( P i ) vérifie si la séquence protéique est une séquence conservée ( équation 6). Cela nécessite un temps O ( 1 ) car il s'agit d'une recherche directe, et nous avons le pointeur vers la racine de l'arbre pour vérifier l'ACV. A la ligne 5, pour vérifier qu'une protéine n'est pas dans une liste conservée, Définition 5, elle nécessite un test d'appartenance et prend un temps O ( 1 ). Cette liste conservée est une liste précalculée à partir de notre ensemble de données qui est affiché dans notre référentiel. Nous avons écrit un code Python multithread et le temps d'exécution total de l'algorithme était de 7 h pour l'ensemble de la base de données NR sur un iMac (Retina 5 K, 27 pouces, fin 2015) avec core i7 et 32 ​​Go de RAM. Pour la deuxième procédure, à la ligne 11, l'algorithme requiert O ( | τ | ) pour calculer la probabilité de chaque feuille dans l'arbre phylogénétique généré.

Algorithme 2 Correction d'annotation : Le MPA pour les séquences mal classées. Entrée de la requête BoaG (Matériel supplémentaire)

1: procédure le plus probable P i , p , c

2 : top _ ann ← max ( prob ( τ ( P i ) ) ) ▹ Taxons les plus probables

3: si prob ( top _ ann ) p alors

4: revenir ( top _ ann ⁠ ).

6 : cluster ← C j dans lequel P i C j

7 : top _ ann ClusterMostProbbable ( cluster , p , c ) ⁠ .

8: revenir top _ ann .

9: procédure ClusterPlusProbablegroupe, p, c

10: si taille ( grappe ) c alors

11: pour A i , a dans τ ( cluster ) faire

12 : V a ← prob ( A i , a ) , liste ( freq ( A i , a ) , prov ( A i , a ) )

13: top _ ann ← max ( prob ( τ ( cluster ) ) ) ▹ Taxons les plus probables

14: si prob ( top _ ann ) p alors

15: revenir haut _ ann

17: revenir nul ▹ Impossible de corriger les erreurs de classification

2.3 L'attribution taxonomique la plus probable pour les erreurs de classification détectées

Pour les séquences mal classées détectées, nous avons défini des critères pour proposer l'affectation taxonomique la plus probable (AMP). Tout d'abord, nous avons exécuté une requête BoaG (Fig. S2 supplémentaire) pour récupérer les annotations et les informations de regroupement à 95 % de similarité. Comme le montre la définition 4, nous avons pris en compte la provenance ou la base de données d'origine, la fréquence des annotations pour calculer l'affectation taxonomique probable (AMP), qui est la probabilité la plus élevée. Supposons que Pje appartient au cluster Cj. Si l'algorithme ne trouve pas l'AMP dans un certain seuil, la probabilité p, puis nous regardons le cluster de 95% de similarité auquel appartient la séquence. Deuxièmement, nous avons trouvé l'affectation taxonomique la plus probable dans Cj. If a particular taxonomic assignment was the most frequent one in Cj then we return that annotation as the MPA for the protein sequence Pje. For example, in cluster Cj, 7 sequences out of 10 sequences have a specific annotation. Then, we consider this annotation to be the MPA protein sequence Pje with 70% confidence.

Details are shown in the Algorithm 2. In line 2, for a particular protein Pje, it returns the most frequent taxonomic assignment within a certain threshold p. Let’s assume we want a taxonomic assignment that appears more than 70% of the time. If the algorithm does not find the MPA, it checks the cluster Cj with 95% similarity that this sequence belongs to and finds the one with a certain probability, p and a cluster size, c (line 7). In line 9, ClusterMostProbable takes the cluster id and finds the most probable taxonomic assignment in the cluster (line 13).

The Algorithm 2 requires O ( | τ ( P ) | ) time, Definition 2, to find the top(1) or maximum probability of an annotation in the list of annotations.

2.4 Simulated and literature dataset

To evaluate the performance of our taxonomic misclassification approach, we generated a simulated dataset. We took a subset of one million proteins of the reviewed dataset, i.e. RefSeq database and randomly misclassified 50% of the proteins in the sample by adding a taxonomic assignment from another phylum or kingdoms. Then, we tested if the approach can detect these sequences. We also tested our approach for detecting misclassified sequences and correcting them on the real-world data, presented in the literature ( Edgar, 2018 Kozlov et al., 2016). These works have focused on the RNA dataset, and they quantified misclassified RNA sequences. We also used CD-HIT to cluster RNA databases based on 95% sequence similarity. Further details on the simulated dataset, scripts and data files can be accessed from https://github.com/boalang/nr.

2.5 Sensitivity analysis

We define sensitivity analysis as a way that an input parameter affects the output of the proposed approach. Here, probability based on annotation frequencies and the cluster size are the two input parameters that affect what percentages of detected misclassified sequences that we can fix, i.e. MPA, as shown in Algorithm 2 on the NR dataset. The algorithm will not give the same suggestion for changes in parameters. For example, if we change the cluster size, number of proteins in the cluster, it may or may not find correct taxa. We conducted a sensitivity analysis based on the probability of each annotation that we defined in Definition 4 and the size of the cluster of 95% that the sequence belongs to. We run the algorithm to find the most probable taxonomic assignments (MPA) with different clusters size, c and with different probabilities, p. As it is shown in ( Supplementary Fig. S3 ), with a probability of 0.4 and without giving more weight to the annotations that verified experimentally, we could provide a most probable taxonomic assignment to about 60% of the proteins that we detected as misclassified. We also extended sensitivity analysis by giving more weight to the experimental taxonomic assignment with the probability of 0.4 we could provide the most probable taxonomic assignment for more than 80% of the sequences that were identified as a misclassification.


Finding protein motifs by running sequence analysis in protein BLAST - Biology

Extracellular signal-regulated kinase 8 (ERK8) is the most recently identified member of the ERK subfamily of MAPKs. Although other members of the ERK subfamily are established regulators of signaling pathways involved in cell growth and/or differentiation, less is known about ERK8. To understand the cellular function of ERK8, a yeast two-hybrid screen of a human lung library was performed to identify binding partners. One binding partner identified was Hic-5 (also known as ARA55), a multiple LIM domain containing protein implicated in focal adhesion signaling and the regulation of specific nuclear receptors, including the androgen receptor and the glucocorticoid receptor (GR). Co-immunoprecipitation experiments in mammalian cells confirmed the interaction between Hic-5 and both ERK8 and its rodent ortholog ERK7. The C-terminal region of ERK8 was not required for the interaction. Although the LIM3 and LIM4 domains of Hic-5 were sufficient and required for this interaction, the specific zinc finger motifs in these domains were not. Transcriptional activation reporter assays revealed that ERK8 can negatively regulate transcriptional co-activation of androgen receptor and GRα by Hic-5 in a kinase-independent manner. Knockdown of endogenous ERK8 in human airway epithelial cells enhanced dexamethasone-stimulated transcriptional activity of endogenous GR. Transcriptional regulation of GRα and interaction with its ligand binding domain by ERK8 were dependent on the presence of Hic-5. These results provide the first physiological function for human ERK8 as a negative regulator of human GRα, acting through Hic-5, and suggest a broader role for ERK8 in the regulation of nuclear receptors beyond estrogen receptor α.

This work was supported in part by National Institutes of Health Grant HL073132 (to M. K. A.). Les frais de publication de cet article ont été couverts en partie par le paiement des frais de page. Cet article doit donc être marqué par la présente «publicité» conformément à 18 U.S.C. L'article 1734 uniquement pour indiquer ce fait.

Les deux auteurs ont contribué à parts égales à ce travail.

Present address: the Whitehead Institute, Cambridge, MA 02142.

Supported in part by National Institutes of Health Training Grant HL07605.


CONSTRUCTION OF THE ANNOTATION SYSTEM

The way we designed our GO annotation system was mainly inspired by personal experience with the use of GO terms for annotation of in-house EST projects for model organisms like amphioxus or sea urchin. A common problem in these projects is how to compare large transcript libraries represented by ESTs (e.g. from different embryonic stages or different species) with respect to global functional classes like transcription regulation, energy metabolism, in order to find fundamental differences.

Typically in cases where no GO annotation is available it is imported by sequence similarity searches against data sets with existing links to GO terms. This procedure generates a wealth of information of high specificity, which is not always convenient for a more general classification. Here the well defined hierarchical structure of GO is an excellent resource, since all parent terms for a specific GO-Id can be traced up to the more general ontology classes like binding, enzyme, transcription regulation, cell communication, which are more suitable for a survey annotation of large data sets like whole cDNA libraries or complete genomes (1,4,15). An optimal automated annotation system should therefore use a broad data set of protein and gene sequences connected with GO terms and it must contain parsers, which allow effective screening of the GO hierarchy up to any level of specificity.

While the vast majority of data sets published on the GO web site has evidence code IEA (inferred from electronic annotation), which normally means that the annotation was based on sequence similarity searches without inspection by a curator, there is also a significant amount with more confident evidence codes (indicating that annotation was controlled by a curator). Especially the Gene Ontology annotations (GOA) for yeast (11), C.elegans (16), Drosophile (17), mouse (18) and the human GOA (www.ebi.ac.uk/GOA/) maintained by the EBI have a large number of high-confidence evidence codes. The largest GOA set (as of February 2003) covers 566 342 protein IDs from SWISS-PROT (19) and TrEMBL from almost 50� taxa and is also provided by the EBI, but here the majority of entries only has evidence code IEA. We imported all these data sets into local protein databases (1 per GOA set), which contain the respective GO terms, and made them accessible by a local BLAST (6,7) server. Similarity searches can now be performed with any level of sensitivity, with DNA or protein sequences as query. The protein databases are regularly updated and build the core of the annotation system. Once a BLAST run is finished the relevant GO terms are extracted from the BLAST output files together with the functional description of the respective database proteins (Fig. ​ (Fig.1 1 A).

(UNE et B) Excerpts of a GOblet result web page for an Amphioxus RNA for caspase-6. Note that in the figure the original output is truncated for easier display. (A) Upper part of result page. The protein matches are shown in the order of their significance. Links to external databases and to the BLAST alignments are provided and the GO-Ids associated with the respective target protein are displayed. (B) Bottom of result page. All GO-Ids positive with the query sequence are condensed into a summary tree. Contributions of single database proteins are displayed. The numbers in brackets give the amount of distinct protein contributions for that branch.

The complete gene ontology (i.e. the hierarchy of GO identifiers and their description) is available in various formats from the GO consortium (www.geneontology.org). Since we wanted to set up a fully integrated local analysis system we developed a GO parser, which maps the GO hierarchy onto a set of linearised trees, with terms and nodes connected by hash tables, so that any partial hierarchy (starting backwards from a single GO-Id) can be easily reconstructed. For each query sequence the complete set of relevant GO-Ids (obtained from the BLAST output) is used then for construction of a summary tree (Fig. ​ (Fig.1B), 1 B), that lists all the single proteins leading to a specific leaf of the tree. Furthermore, the total counts per GO-Id are given, which allows easy identification of the most significant GO terms.

All the procedures described above are combined in a package of perl scripts. The web server handles the queries via Perl-CGI modules.


Discussion

It is known that prior assumption regarding the MI calculation critically affects MI results ( Fernandes and Gloor, 2010). In this study, a sequence profile, equivalent to the independently estimated marginal probability, was utilized as prior information for the joint probability estimation. We showed that our novel ways to utilize sequence profile greatly improve the accuracy and usability of detecting coevolving residues. Our promising result has two important aspects. First, sequence profile information is valuable prior knowledge. The estimation of a joint probability that has 399 independent parameters requires MSA consisting of a large number of sequences ( Martin et al., 2005 Ashkenazy et al., 2009), which may not be feasible in many cases. On the other hand, a sequence profile that has only 19 independent parameters can be reliably estimated with a relatively small number of aligned sequences, and many accurate ways to calculate sequence profile have been developed ( Durbin et al., 1998). Therefore, incorporating a sequence profile as prior knowledge is a reliable and efficient way of improving joint probability estimates and is, subsequently, beneficial to the detection of coevolving residues. Second aspect is that joint probability is adjusted to have the same marginal probability as the independently estimated value, whereas conventional methods do not account for such consistency constraint. In a previous study ( Fernandes and Gloor, 2010), it has been demonstrated that consistency is a critical assumption in MI estimates. Likewise, our study revealed that the consistency assumption is critically important in MI calculation in the detection of coevolving residues.

As the profile-based joint probability estimate can be used with any form of MI-based measure, we expect similar level of performance improvement for all MI-based measures that may be required for various applications using correlated mutation information. In this study, we showed that the use of sequence profile in state-of-the-art MI variants improves the prediction of intra- and inter-residue contacts. However, the use of correlated mutation is not limited to the described applications. Because the correlated mutation analysis has been applied to various biological studies solely or in combination with other techniques ( Göbel et al., 1994 Pazos et al., 1997 Wu et al., 2003 Shackelford and Karplus, 2007 Lee et al., 2008 Liu et al., 2008 Skerker et al., 2008 Aurora et al., 2009 Halabi et al., 2009 Jeong and Kim, 2010 Kowarsch et al., 2010 Zhang et al., 2010), the improvement achieved by the present method is still effective for those applications. Moreover, the strong robustness of the present method can expand the applications.

A fully automated web server, named CMAT (Correlated Mutation Analysis Tool), was developed based on the present method. The only input prepared by the user is a target sequence. Subsequently, the analysis procedure including MSA construction, redundancy removal and coevolution score estimation is automatically conducted. After the analysis is completed, the outputs including MI, MIp and MIc scores are reported. Additionally, the associated amino acid types are listed with their pointwise MI values, which might be helpful to users who are interested in experimental mutation studies for choosing targeting amino acids. The web server is freely available on the web at http://binfolab12.kaist.ac.kr/cmat/. Besides, for users who want to analyze a large amount of MSAs, the standalone program is also freely available.

Although the present method shows significant improvements over other methods in detecting coevolving residues, the factors that directly cause the coevolution are not easily identifiable without additional knowledge. It is known that a variety of structural and functional factors are related with correlated mutation ( Fitch and Markowitz, 1970 Lee et al., 2008 Skerker et al., 2008 Chakrabarti and Panchenko, 2009, 2010 Halabi et al., 2009 Kowarsch et al., 2010). However, covariation analyses including the present and conventional algorithms have been focused on the quantification of residue–residue coevolution with less regard to the underlying biological mechanism. To be meaningful, the calculated coevolution scores need to be mapped onto additional features such as spatial distance and functional annotations. To overcome this limitation, prior knowledge related with biological background would be helpful ( Fernandes and Gloor, 2010). For example, coevolving residues at protein–protein interfaces have been effectively detected by using physicochemical compensation as prior knowledge ( Madaoui and Guerois, 2008). That is, meaningful coevolution signal for particular studies can be extracted by taking account of the relationship between correlated mutation and additional biological knowledge.

For future study, we will comprehensively investigate the structural and functional factors that induce residue–residue coevolution, and utilize them as prior biological knowledge for the detection of coevolving residues. Although some previous studies have performed the large-scale analyses ( Chakrabarti and Panchenko, 2010 Kowarsch et al., 2010), their results are based on insufficient data due to the algorithmic limitations such as the MSA diversity and gap fractions. The present method is suitable for a large-scale analysis because of its robustness and reliability. Therefore, the comprehensive study based on the present method can reveal meaningful biological knowledge underlying correlated mutation, which also leads additional improvements in the detection of coevolving sites.


Voir la vidéo: Mis on VÄLK?? (Janvier 2023).