Informations

Quels sont les avantages de la technologie iTRAQ/TMT par rapport à l'électrophorèse ?

Quels sont les avantages de la technologie iTRAQ/TMT par rapport à l'électrophorèse ?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Je travaille actuellement sur l'article concernant la recherche en protéomique. J'ai énuméré beaucoup de questions que les étudiants de première année peuvent avoir au cours de leurs études. Quelqu'un peut-il expliquer (sur la base de votre expérience en laboratoire) les avantages et les inconvénients de la technologie iTRAQ/TMT et de l'électrophorèse ? Quelle technique est la meilleure ?


Je pense que cet article peut répondre à votre question : Questions-réponses sur la protéomique (Q1-Q5). Il dit que le 2-DGE est une technologie de séparation des protéines développée avec la technologie MALDI-TOF. En théorie, la protéine totale peut être séparée une par une avec la différence de point isoélectrique (IEF) et de poids moléculaire (SDS-PAGE). La situation réelle n'est pas si idéale, car la protéine de faible abondance ne peut pas être colorée et vue avec succès, et la protéine est déviée de la position théorique après modification post-traductionnelle. Un 2-DGE peut identifier un total de 1000 à 2000 protéines. Comparé aux techniques basées sur l'électrophorèse telles que 2-DE et DIGE, iTRAQ/TMT a une haute résolution. MtoZ Biolabs a trouvé 6 000 protéines au maximum dans les échantillons cellulaires qu'il a traités, dont la plupart contiennent des informations quantitatives et qualitatives. De plus, son iTRAQ a un flux élevé et peut traiter jusqu'à 8 échantillons à la fois. Si la technologie TMT est utilisée, elle peut compléter jusqu'à 10 échantillons à la fois, ce qui est particulièrement adapté à la comparaison simultanée entre plusieurs échantillons et à la détection dynamique de processus biologiques.


Protéomique quantitative de haute précision utilisant iTRAQ sur un Orbitrap LTQ : une nouvelle méthode de spectrométrie de masse combinant les avantages de tous

Les vues d'articles correspondent à la somme conforme à COUNTER des téléchargements d'articles en texte intégral depuis novembre 2008 (à la fois PDF et HTML) dans toutes les institutions et tous les individus. Ces mesures sont régulièrement mises à jour pour refléter l'utilisation au cours des derniers jours.

Les citations sont le nombre d'autres articles citant cet article, calculé par Crossref et mis à jour quotidiennement. Trouvez plus d'informations sur le nombre de citations de Crossref.

L'Altmetric Attention Score est une mesure quantitative de l'attention qu'un article de recherche a reçu en ligne. Cliquer sur l'icône en forme de beignet chargera une page sur altmetric.com avec des détails supplémentaires sur le score et la présence sur les réseaux sociaux pour l'article donné. Trouvez plus d'informations sur le score d'attention Altmetric et comment le score est calculé.


Résumé

Cette étude visait à comparer la profondeur et la reproductibilité du protéome total et de la couverture protéique exprimée de manière différentielle dans des doublons et des triplicats techniques à l'aide des réactifs iTRAQ 4-plex, iTRAQ 8-plex et TMT 6-plex. L'analyse a été entreprise parce que les comparaisons complètes de la reproductibilité des étiquettes de masse isobare n'ont pas été largement rapportées dans la littérature. Le plus grand nombre de protéines a été identifié avec les réactifs 4-plex, suivis des réactifs 8-plex puis 6-plex. Des analyses quantitatives ont révélé que plus de protéines exprimées de manière différentielle ont été identifiées avec des réactifs 4-plex qu'avec des réactifs 8-plex et des réactifs 6-plex. La reproductibilité des réplicats a été déterminée à ≥ 69 % pour les doublons techniques et ≥ 57 % pour les triplicats techniques. Les résultats indiquent que l'exécution d'une expérience à 8 ou 6 plex au lieu d'une expérience à 4 plex a entraîné respectivement 26 ou 39 % d'identifications de protéines en moins. Lorsque les spectres 4-plex ont été recherchés avec trois outils logiciels—ProteinPilot, Mascot et Proteome Discoverer—le plus grand nombre d'identifications de protéines a été obtenu avec Mascot. L'analyse des contrôles négatifs a démontré l'importance d'effectuer des expériences en tant que répétitions. Dans l'ensemble, cette étude démontre les avantages de l'utilisation des réactifs iTRAQ 4-plex par rapport aux réactifs iTRAQ 8-plex et TMT 6-plex, fournit des estimations de la reproductibilité technique en double et en triple et souligne la valeur de l'analyse d'échantillons répétés.


Protéomique : Techniques

Méthodes à faible débit :

1. Méthodes basées sur les anticorps

Des techniques telles que l'ELISA (essai immunoenzymatique) et le western blot reposent sur la disponibilité d'anticorps ciblés contre des protéines ou des épitopes spécifiques pour identifier les protéines et quantifier leurs niveaux d'expression.

2. Méthodes à base de gel

L'électrophorèse sur gel bidimensionnelle (2DE ou 2D-PAGE), la première technique protéomique développée, utilise un courant électrique pour séparer les protéines dans un gel en fonction de leur charge (1 ère dimension) et de leur masse (2 ème dimension). L'électrophorèse différentielle sur gel (DIGE) est une forme modifiée de 2DE qui utilise différents colorants fluorescents pour permettre la comparaison simultanée de deux à trois échantillons de protéines sur le même gel. Ces méthodes à base de gel sont utilisées pour séparer les protéines avant une analyse plus approfondie par exemple, la spectrométrie de masse (MS), ainsi que pour le profilage d'expression relative.

3. Méthodes basées sur la chromatographie

Les méthodes basées sur la chromatographie peuvent être utilisées pour séparer et purifier les protéines de mélanges biologiques complexes tels que les lysats cellulaires. Par exemple, la chromatographie d'échange d'ions sépare les protéines en fonction de leur charge, la chromatographie d'exclusion stérique sépare les protéines en fonction de leur taille moléculaire et la chromatographie d'affinité utilise des interactions réversibles entre des ligands d'affinité spécifiques et leurs protéines cibles (par exemple, l'utilisation de lectines pour purifier les IgM et IgA molécules). Ces méthodes peuvent être utilisées pour purifier et identifier des protéines d'intérêt, ainsi que pour préparer des protéines en vue d'une analyse plus approfondie par exemple, en aval MS. 8

Méthodes à haut débit :

1. Puces analytiques, fonctionnelles et en phase inverse


Revisiter la découverte de biomarqueurs par la protéomique plasmatique

L'analyse clinique du sang est la procédure de diagnostic la plus répandue en médecine, et les biomarqueurs sanguins sont utilisés pour catégoriser les patients et pour soutenir les décisions de traitement. Cependant, les biomarqueurs existants sont loin d'être complets et manquent souvent de spécificité et de nouveaux sont développés à un rythme très lent. Comme décrit dans cette revue, la protéomique basée sur la spectrométrie de masse (MS) est devenue une technologie puissante dans la recherche biologique et elle est maintenant prête à permettre la caractérisation du protéome plasmatique en profondeur. Les « stratégies triangulaires » précédentes visaient à découvrir des candidats biomarqueurs uniques dans de petites cohortes, suivies par des immunoessais classiques dans des cohortes de validation beaucoup plus importantes. Nous proposons une stratégie de profilage du protéome plasmatique « rectangulaire », dans laquelle les modèles de protéome de grandes cohortes sont corrélés avec leurs phénotypes en santé et en maladie. La traduction de ces concepts dans la pratique clinique nécessitera une restructuration de plusieurs aspects de la prise de décision diagnostique, et nous discutons de quelques premiers pas dans cette direction.

Introduction

Le rôle central et intégrateur du sang dans la physiologie humaine implique qu'il doit être un reflet universel de l'état ou du phénotype d'un individu. Ses composants cellulaires sont les érythrocytes, les thrombocytes et les lymphocytes. La partie liquide est appelée plasma, lorsque tous les composants sont retenus, et sérum, lorsque la cascade de coagulation a été activée (coagulation du sang). Pour simplifier, nous utiliserons le terme « plasma » plutôt que « sérum », car la plupart des conclusions s'appliquent aux deux.

Les concentrations de divers composants plasmatiques sont déterminées de manière routinière dans la pratique clinique. Ceux-ci comprennent les électrolytes, les petites molécules, les médicaments et les protéines. Les protéines constituant le protéome plasmatique peuvent être classées en trois classes différentes (Fig. 1A et B). Le premier contient des protéines abondantes ayant un rôle fonctionnel dans le sang. Il s'agit notamment des apolipoprotéines de l'albumine sérique humaine (HSA, environ la moitié de la masse protéique totale), qui jouent un rôle crucial dans le transport des lipides et l'homéostasie, les protéines de la phase aiguë de la réponse immunitaire innée et les protéines de la cascade de la coagulation. La deuxième classe est constituée de protéines de fuite tissulaire sans fonction dédiée dans la circulation. Des exemples sont des enzymes telles que l'aspartate aminotransférase (ASAT) et l'alanine aminotransférase (ALAT), qui sont utilisées pour le diagnostic des maladies du foie, ainsi que des isoformes de protéines spécifiques aux tissus de faible niveau telles que les troponines cardiaques. La troisième classe comprend les molécules de signalisation telles que les petites hormones protéiques (par exemple, l'insuline) et les cytokines, qui ont généralement de très faibles abondances à l'état d'équilibre et sont régulées à la hausse si nécessaire. Les niveaux de base de la cytokine interleukine-6 ​​(IL-6) sont de 5 pg/ml, établissant une plage dynamique minimale de 10 à 10 fois le protéome plasmatique par rapport à la concentration de la protéine la plus abondante, la HSA, avec environ 50 mg/ ml.

Figure 1. Analyses de laboratoire à base de sang en milieu clinique

Dans l'utilisation acceptée, « un biomarqueur est une caractéristique définie qui est mesurée comme un indicateur de processus biologiques normaux, de processus pathogènes ou d'une réponse à une exposition ou à une intervention » (FDA-NIH : Biomarker-Working-Group, 2016). Aux fins de cette revue, nous nous concentrons spécifiquement sur les protéines ou les biomarqueurs basés sur la modification des protéines. En ce sens, il existe plus de 100 tests cliniques plasmatiques ou sériques approuvés par la FDA ou approuvés par la FDA, principalement dans la classe fonctionnelle abondante (50 %), suivis des marqueurs de fuite tissulaire (25 %), et le reste comprend des ligands des récepteurs. , les immunoglobulines et les sécrétions aberrantes (Anderson, 2010 ). La plupart d'entre eux datent de plusieurs décennies et le taux d'introduction actuel de nouveaux marqueurs est inférieur à deux par an (Anderson et al, 2013 ). Un test typique consiste en un dosage enzymatique ou un dosage immunologique contre une cible unique. Les cliniciens interprètent les résultats en conjonction avec d'autres informations sur les patients, sur la base de leurs connaissances spécialisées. Les rapports d'abondance ne sont employés que dans des cas spécifiques. Des exemples sont le rapport De Ritis de 60 ans d'ASAT/ALAT pour différencier les causes de maladie du foie (De-Ritis et al, 1957 ) ou le rapport sFlt-1/PlGF plus récent pour le diagnostic de la prééclampsie (Levine et al, 2004 ).

Contrairement aux méthodes enzymatiques et basées sur les anticorps, la protéomique basée sur la spectrométrie de masse (MS) mesure les spectres de masse et de fragmentation très précis des peptides dérivés de la digestion spécifique de la séquence de protéines. Parce que les masses et les séquences de ces peptides sont uniques, la protéomique est intrinsèquement spécifique, un problème constant avec les tests enzymatiques colorimétriques et les immunoessais (Wild, 2013). En principe, la protéomique basée sur MS peut analyser toutes les protéines d'un système - son protéome - et est en ce sens impartiale et sans hypothèse (Aebersold & Mann, 2016). De plus, les méthodes MS sont parfaitement adaptées pour découvrir et quantifier les modifications post-traductionnelles (PTM) sur les protéines. Ces PTM peuvent également servir de base à des tests de diagnostic, tels que les taux d'HbA1c qui servent à lire l'exposition au glucose à long terme dans le contexte du diabète. Néanmoins, aucun des tests de laboratoire effectués en routine dans le plasma n'est basé sur des protéines identifiées par des approches de spectrométrie de masse, et dans les analyses de routine, la SM n'est jusqu'à présent utilisée que pour mesurer de petites molécules telles que les médicaments et les métabolites (Vogeser & Seger, 2016 ).

Au cours des dernières années, la technologie de la protéomique basée sur la SEP s'est considérablement améliorée, et c'est maintenant un pilier de toutes les recherches biologiques impliquant des protéines (Cox & Mann, 2011 Altelaar & Heck, 2012 Richards et al, 2015 Zhang et al, 2016 ). En particulier, ses performances ont solidement évolué vers une sensibilité et une plage dynamique qui le rendent intéressant pour les études de biomarqueurs. Cette revue portera sur les perspectives de détermination des protéines dans le sang par spectrométrie de masse. Nous commençons par évaluer empiriquement le rôle des protéines dans le diagnostic clinique aujourd'hui et passons en revue de manière exhaustive la littérature sur les tentatives précédentes de trouver des biomarqueurs dans le plasma par la protéomique basée sur la SEP. Jusqu'à présent, les stratégies de protéomique ont impliqué des enquêtes approfondies sur quelques échantillons, suivies d'approches ciblées dans des cohortes plus importantes. Nous discutons de la façon dont les récentes avancées technologiques permettent désormais une nouvelle stratégie dans laquelle les protéomes profonds sont mesurés à de nombreux moments et les participants ont la possibilité de trouver de nouveaux biomarqueurs et panels de biomarqueurs. Nous pensons que la protéomique fera partie de la routine instrumentale du laboratoire clinique au cours de la prochaine décennie et pourrait même éliminer les technologies actuelles dans un avenir lointain.

L'étendue actuelle des diagnostics cliniques basés sur les protéines

Les tests de laboratoire sur le sang et les fluides corporels visent à diagnostiquer ou à confirmer la maladie, à prévoir les risques, à surveiller le pronostic et à évaluer l'efficacité du traitement. Il est communément admis que 70 % des diagnostics sont éclairés par des analyses de sang, même si ce nombre n'a pas été bien étayé. À l'Institut de médecine de laboratoire de l'hôpital universitaire de Munich, des tests de laboratoire sont demandés pour la grande majorité des patients hospitalisés à un moment donné de l'hospitalisation (77 % Fig 1C). Cette fraction est beaucoup plus faible chez les patients vus dans l'une des cliniques externes de l'Hôpital (31% Fig 1D). Ces chiffres indiquent que les patients hospitalisés, qui sont généralement plus malades, sont plus susceptibles de subir des tests de laboratoire que les patients ambulatoires. Sur la base du nombre d'analyses demandées, la routine clinique est dominée par les protéines (42 % des analyses), suivies par les petites molécules (35 %) et les cellules (17 %) (Fig 1E). Ainsi, déjà aujourd'hui, les protéines sont la classe d'analytes de laboratoire la plus fréquemment dosée dans la pratique clinique. Nous notons également que les méthodes adaptées à la détermination des protéines plasmatiques ont la plus grande part des in vitro Diagnostique.

Les dosages en laboratoire des protéines plasmatiques sont basés soit sur la chimie clinique classique, utilisant les activités enzymatiques de certaines protéines plasmatiques, soit sur des dosages immunologiques à base d'anticorps. Les coûts des tests enzymatiques ne sont que de l'ordre du centime, et ils fonctionnent sur des analyseurs automatisés à haut débit, fournissant jusqu'à 10 000 résultats de test par heure. En revanche, les immunoessais sont plus chers (généralement plusieurs euros/dollars par échantillon) et le débit des analyseurs automatisés respectifs est d'environ 1 000 tests/heure. Les grands analyseurs de chimie clinique ainsi que les analyseurs basés sur les dosages immunologiques peuvent contenir des réactifs pour plus de 100 paramètres analytiques différents. Les principaux avantages des immunoessais sont un plus grand degré de flexibilité en raison de l'accessibilité aux protéines plasmatiques dépourvues d'activité enzymatique et une sensibilité significativement plus élevée. Un autre problème cliniquement pertinent est le temps requis par test de laboratoire. En raison de la nécessité d'une prise de décision immédiate, la majorité des dosages enzymatiques et plusieurs dosages immunologiques doivent être réduits à des temps d'analyse de < 10 min. En général, les dosages immunologiques ont tendance à prendre plus de temps que les dosages enzymatiques, néanmoins, la grande majorité des dosages immunologiques automatisés actuels ne nécessitent pas plus de 30 minutes.

Revue systématique de la protéomique plasmatique basée sur la SEP dans la recherche sur les biomarqueurs

Les protéines plasmatiques avaient déjà été étudiées par électrophorèse sur gel bidimensionnelle dans les années 1990, parfois en combinaison avec l'identification MS des taches excisées. Cependant, ceux-ci n'identifiaient généralement que quelques dizaines de protéines, et comme ils ont précédé la protéomique basée sur la SEP, ils ne sont pas abordés dans cette revue. Les allégations de détection précoce du cancer basées sur des spectres MALDI de plasma à très faible résolution qui ont produit des modèles mais aucune identification de protéines (Petricoin et al, 2002 ) n'ont pas été corroborées (Baggerly et al, 2004 ), et ces technologies sont aujourd'hui largement abandonnées.

Pour obtenir une collection complète de publications traitant de la recherche sur les biomarqueurs plasmatiques et utilisant la protéomique basée sur la SEP, nous avons effectué une recherche PubMed sans restriction spécifiant la cooccurrence des termes « biomarqueur », « plasma OU sérum », « protéome », « protéomique », et « spectrométrie de masse ». Cela a permis d'obtenir une première liste de 947 publications dont 103 revues. Nous avons en outre soustrait les études qui ne portaient pas sur des sujets humains ou qui n'impliquaient pas de plasma ou de sérum, laissant 381 publications originales (Dataset EV1).

Les publications ont commencé à paraître en 2002 et ont atteint un maximum de 33 par an en 2005, lorsque le numéro spécial sur le protéome plasmatique a été publié par la Human Proteome Organization (HUPO) (Omenn et al, 2005 ). Deux autres maxima sont apparus en 2011 et 2014 avec 39 et 43 publications par an, suivis de baisses en 2013 à 24 et en 2016 à seulement 20 publications par an (Fig 2A). La dynamique observée contraste avec une communauté toujours croissante de chercheurs utilisant la protéomique, qui se traduit par des milliers de publications par an, avec une nette tendance à la hausse. Le rapport des publications sur le protéome plasmatique au total des publications sur le protéome est maintenant de < 1% et continue de baisser. Compte tenu du besoin médical évident de biomarqueurs plasmatiques et du succès de la protéomique basée sur la SEP dans d'autres domaines, cela soulève la question de savoir ce qui freine le domaine de la protéomique plasmatique.

Figure 2. Revue complète de la littérature

Sur les 381 publications principales, environ la moitié traitait des descriptions analytiques du flux de travail utilisé dans l'analyse plasmatique, tandis que le reste portait sur une question physiologique ou physiopathologique (Fig 2B). Environ un tiers de ces derniers se sont concentrés sur le cancer, suivis des maladies cardiovasculaires (MCV), des sujets de biologie humaine, de l'inflammation, du diabète et des maladies infectieuses (Fig 2B). De toute évidence, cet ordre reflète l'intérêt pour les maladies plutôt que la probabilité de trouver des changements pertinents avec la technologie disponible. Seulement 47% des études avaient un quelconque type de validation des résultats primaires (Fig 2C). Dans la moitié des cas (24 %), il s'agissait de simples Western blots ou ELISA de protéines candidates réalisées avec les mêmes échantillons plutôt qu'une cohorte indépendante comme c'est la pratique habituelle dans les études cliniques. Seuls 36 articles ont utilisé la protéomique basée sur la SEP pour valider des biomarqueurs potentiels qui ont été proposés indépendamment (Dataset EV1).

La plage dynamique extrêmement élevée du plasma rend encore difficile l'identification de plus de quelques centaines de protéines parmi les plus abondantes par LC-MS/MS. Pour surmonter partiellement ce défi, les protéines plasmatiques très abondantes sont souvent épuisées, généralement à travers des colonnes avec des anticorps immobilisés dirigés contre les 1 à 20 premières protéines (figure 2D). Cependant, ces anticorps ne sont jamais entièrement spécifiques et les protéines liées, telles que la HSA, ont elles-mêmes une affinité pour plusieurs autres protéines (Tu et al, 2010 Belleï et al, 2011 ). Ainsi, l'échantillon de plasma appauvri n'est pas une représentation quantitative du protéome d'origine. Cela est particulièrement vrai lors de l'utilisation de « super-épuisement » (Qian et al, 2008) - un large mélange d'anticorps polyclonaux dirigés contre le plasma entier - ou des billes avec des mélanges de peptides hexamères qui « normalisent » non spécifiquement le protéome plasmatique (Thulasiraman et al, 2005 ).En outre, ces procédures introduisent de la variabilité et des dépenses supplémentaires dans le flux de travail, empêchant généralement une quantification précise des protéines plasmatiques. Par conséquent, leur utilisation est actuellement limitée aux petits projets de découverte.

Une deuxième stratégie pour faire face au défi de la plage dynamique et de la sensibilité est le fractionnement étendu du plasma, qui peut être effectué de diverses manières au niveau des protéines ou des peptides. Plusieurs études visant à couvrir en profondeur le protéome plasmatique par déplétion combinée et séparation extensive (jusqu'à des centaines de fractions) identifiées de plusieurs centaines à plusieurs milliers de protéines (Liu et al, 2006 et al, 2011 Cao et al, 2012 Cole et al, 2013 Keshishian et al, 2015 Lee et al, 2015 ). Notez que de nombreuses études sur le protéome plasmatique continuent d'utiliser des critères d'identification statistique beaucoup moins stricts que les taux de fausse découverte (FDR) de 1% de peptides et de protéines qui sont devenus la norme dans la protéomique basée sur la SEP.

La diminution de débit implicite dans le fractionnement peut être partiellement récupérée par multiplexage. Par exemple, entre quatre et dix échantillons ont été analysés ensemble en utilisant les stratégies iTRAQ ou TMT, dans lesquelles les échantillons sont marqués avec des étiquettes neutres en masse qui donnent lieu à différents ions rapporteurs de faible masse (Kolla et al, 2010 Zhou et al, 2012 Cominetti et al, 2016 ). La quantification est réalisée en fragmentant les peptides et en quantifiant les rapports relatifs des ions rapporteurs (Bantscheff et al, 2008 ). Bien qu'attrayantes en principe, ces techniques souffrent généralement d'une distorsion de rapport causée par des espèces peptidiques co-isolées qui contribuent toutes au même motif d'ions rapporteurs (« compression de rapport »). La régulation des protéines de très faible niveau ou de celles présentant des changements mineurs mais pertinents pour la maladie peut être complètement obscurcie. En protéomique de fusil de chasse, les peptides éluants sont fragmentés par ordre d'intensité (acquisition dépendante des données), un processus semi-stochastique qui peut conduire à des valeurs manquantes lors des analyses LC-MS/MS. Les stratégies d'acquisition indépendantes des données récemment introduites identifient de manière plus cohérente les peptides d'une série à l'autre (Picotti & Aebersold, 2012 Sajic et al, 2015 ). Cependant, ils sont incompatibles avec le multiplexage à base d'ions rapporteurs car on quantifierait la moyenne des groupes de peptides.

Dans environ 30 % des études, les échantillons de plasma ont été regroupés pour atteindre une couverture de protéome plasmatique souhaitée dans le temps de mesure disponible. Cette approche sacrifie les variances au sein du groupe et les protéines aberrantes ou contaminantes dans les échantillons individuels peuvent fausser l'ensemble du groupe, ce qui rend pratiquement impossible d'évaluer si les protéines qui sont différentes entre les groupes sont réellement significatives sur une base individuelle.

En partie à cause des exigences en matière de temps d'instrumentation, généralement pas plus de 20 à 30 échantillons ont été analysés et seuls quelques-uns ont dépassé 500 (Garcia-Bailo et al, 2012 Cominetti et al, 2016 Lee et al, 2017 ). Compte tenu du grand nombre de points de mesure dans les échantillons, il s'agit de petits nombres d'échantillons. En conséquence, la plupart des études ont proposé quelques « biomarqueurs potentiels », définis comme des protéines qui diffèrent entre les cas et les témoins. En outre, il est peu probable que beaucoup de ces candidats soient des indicateurs spécifiques de la maladie en question, car ils appartiennent à des catégories biologiques qui sont au mieux indirectement liées à la maladie ou sont probablement des artefacts de la préparation des échantillons (comme les kératines et les protéines des globules rouges). . En résumé, les limites de la technologie protéomique et de la conception expérimentale ont empêché l'identification de véritables biomarqueurs dans la littérature publiée à ce jour. À notre connaissance, la seule exception possible est le test OVA1, dans lequel les niveaux des protéines plasmatiques très abondantes bêta-2 macroglobuline, apolipoprotéine 1, transferrine sérique et pré-albumine ont été combinés avec le marqueur du cancer de l'ovaire CA125 précédemment établi dans un indication étroite approuvée par la FDA (Rai et al, 2002 Zhang et al, 2004 ).

Stratégie de découverte et de validation de biomarqueurs triangulaires basés sur MS

Le principal avantage de la protéomique basée sur la SEP sans hypothèse est qu'aucune hypothèse n'a besoin d'être faite concernant la nature et le nombre possibles de biomarqueurs potentiels, contrairement aux mesures d'une seule protéine dans la recherche classique sur les biomarqueurs. Conceptuellement, la protéomique basée sur la SEP combine toutes les études de biomarqueurs possibles basées sur des hypothèses pour chaque maladie en une seule et définit en outre la relation entre les biomarqueurs potentiels. En pratique, les défis de la protéomique plasmatique ont jusqu'à présent empêché des études approfondies et quantitatives sur de grandes cohortes. Au lieu de cela, une stratégie par étapes ou « triangulaire » pour la découverte de biomarqueurs a été préconisée, avec plusieurs phases dans lesquelles le nombre d'individus augmente de quelques-uns à plusieurs, tandis que le nombre de protéines diminue de centaines ou de milliers à quelques-uns (Rifai et al, 2006 Fig 3A).

Figure 3. Paradigmes actuels de la recherche sur les biomarqueurs plasmatiques (« approche triangulaire »)

Le flux de travail typique pour la protéomique de découverte sans hypothèse dans le plasma est similaire à celui utilisé dans d'autres domaines de la protéomique ascendante (Aebersold & Mann, 2016 Altelaar & Heck, 2012 Fig 3B). En bref, les protéines sont digérées par voie enzymatique en peptides, qui sont séparés par chromatographie liquide à haute pression (HPLC) couplée à une ionisation par électrospray. Les masses et abondances peptidiques sont mesurées dans le spectromètre de masse dans des balayages MS complets, tandis qu'une étape supplémentaire de fragmentation peptidique produit des spectres MS/MS pour l'identification des peptides. Les plates-formes logicielles de protéomique bien établies identifient automatiquement et statistiquement de manière rigoureuse les peptides dans les recherches dans les bases de données et les quantifient (Cox & Mann, 2008 MacLean et al, 2010 Rost et al, 2014 ). De plus, le plasma contient des composants sanguins tels que des lipides qui peuvent facilement obstruer les colonnes HPLC, ce qui nécessite des procédures de nettoyage peptidiques dédiées (Geyer et al, 2016a ).

La protéomique ciblée pour la vérification des candidats est une deuxième phase de la stratégie triangulaire (Fig 3C). Un nombre relativement faible de protéines (généralement < 10) avec une expression différentielle dans la phase de découverte sont testés dans une cohorte plus grande et idéalement indépendante. Étant donné que les dosages immunologiques ne sont souvent pas disponibles, des méthodes ciblées de SEP peuvent être utilisées. La plus répandue d'entre elles est la « surveillance de réactions multiples » (MRM—parfois aussi appelée surveillance de réaction unique ou sélectionnée—SRM) (Picotti & Aebersold, 2012 Carr et al, 2014 Ebhardt et al, 2015 ). Pour chaque protéine, un ensemble de peptides appropriés est sélectionné et leur comportement d'élution et de fragmentation est évalué pour définir un test MRM. Pendant l'analyse, le spectromètre de masse est programmé pour fragmenter en continu uniquement ces peptides lors de leur élution. En surveillant plusieurs fragments par peptide, une quantification sensible et spécifique peut être obtenue même avec des spectromètres de masse à faible résolution. L'avantage du MRM par rapport à la protéomique des fusils de chasse pour la vérification est sa sensibilité et son débit plus élevés. Des études interlaboratoires ont atteint une bonne reproductibilité (Addona et al, 2009 Abbatiello et al, 2015 ), mais les sensibilités signalées n'atteignent généralement pas la faible plage de concentration en ng/ml et les capacités de multiplexage pratiquement atteintes sont limitées à des dizaines de peptides (Percy et al, 2013 Shi et al, 2013 Oberbach et al, 2014 Wu et al, 2015 ). Néanmoins, deux études récentes ont rapporté le ciblage de 82 et 192 protéines, respectivement (Ozcan et al, 2017 Percy et al, 2017 ). La sensibilité du MRM peut être améliorée jusqu'aux plages de faible ng/ml ou même de haute pg/ml par un prétraitement plus poussé des échantillons avec déplétion ou fractionnement (Burgess et al, 2014 Kim et al, 2015 Nié et al, 2017 ).

Une quantification absolue et précise nécessite des normes internes, généralement des versions isotopiques lourdes des peptides surveillés. Les peptides lourds synthétisés sont ajoutés après digestion, créant une source d'imprécision quantitative puisque la variabilité de la digestion des protéines n'est pas prise en compte. Cela peut être résolu en intégrant le peptide dans son contexte de séquence d'origine, par exemple, dans la stratégie SILAC-PrEST, dans laquelle un tronçon de 150 à 250 acides aminés de chaque protéine d'intérêt, fusionné à une étiquette de quantification, est exprimé par recombinaison sous une forme lourde (Zeiler et al, 2012 Edfors et al, 2014 Geyer et al, 2016a ).

Les méthodes ciblées peuvent également être combinées à l'immuno-enrichissement de protéines ou de peptides. Par exemple, dans les « standards d'isotopes stables et capture par des anticorps anti-peptides » (SISCAPA), des peptides spécifiques sont immunoprécipités avec leurs homologues fortement marqués, suivis d'une lecture rapide basée sur la SEP (Anderson et al, 2004 Razavi et al, 2016 ). Cela combine les capacités d'enrichissement des anticorps avec la spécificité de la détection de la SEP. Cependant, le développement de tests peut être difficile et prendre du temps, ce qui réduit l'avantage par rapport aux méthodes purement basées sur les anticorps.

La phase finale de la stratégie triangulaire est la validation avec des immunoessais, un domaine qui a mûri au fil des décennies. Pour une spécificité maximale, les tests en sandwich sont généralement préférés (figure 3D). Bien qu'ils soient coûteux et laborieux à développer, ils peuvent atteindre une sensibilité élevée et un débit élevé. Même des cohortes de milliers de participants peuvent être testées avec cette technologie, mais uniquement pour un ou quelques biomarqueurs candidats. Des nombres aussi importants peuvent être nécessaires pour établir la spécificité non seulement par rapport aux témoins mais aussi par rapport à d'autres maladies. Les exigences standard comprennent l'assurance d'une puissance statistique et d'une réplication adéquates dans une population indépendante. Aujourd'hui, de telles études cliniques peuvent être des efforts coûteux sur plusieurs années, ce qui explique en partie le manque de nouveaux biomarqueurs.

Les dosages immunologiques ont certaines limites inhérentes, principalement liées à la reconnaissance antigène-anticorps. Ceux-ci incluent la réactivité croisée, l'interférence par des molécules de fond telles que les triglycérides et la réponse non linéaire (« effet crochet ») (Hoofnagle & Wener, 2009 Wild, 2013). De plus, toutes les variantes de protéines cliniquement importantes ne sont pas facilement reconnaissables par des tests basés sur les anticorps. Compte tenu de ces limitations, les méthodes basées sur la SEP constitueraient des alternatives intéressantes dans au moins certains essais cliniques à grande échelle, mais cela nécessite des technologies beaucoup plus robustes, sensibles et à débit plus élevé que celles disponibles aujourd'hui.

Au cours de la dernière décennie, la communauté protéomique a élaboré des directives pour le développement approprié de biomarqueurs qui discutent des normes de qualité et soulignent l'importance de sélectionner des cohortes adéquates qui garantissent la signification statistique des résultats ainsi que la spécificité des biomarqueurs potentiels et leur application clinique potentielle (Luque- Garcia & Neubert, 2007 Paulovitch et al, 2008 Mischak et al, 2010 Surinova et al, 2011 Patins et al, 2013 Parker & Borchers, 2014 Hoofnagle et al, 2016 ).

Il n'est pas surprenant, compte tenu des exigences rigoureuses de la stratégie triangulaire, qu'il y ait peu ou pas de rapports dans lesquels elle a été appliquée complètement et avec succès. Cela peut également être dû en partie au fait que trois technologies différentes – la protéomique au fusil de chasse, la protéomique ciblée et le développement d'immunoessais – sont impliquées. De nombreuses publications ne décrivent que la première phase ou ne la combinent qu'avec une vérification par immunoessai dans la même cohorte (Dataset EV1).

Parmi les études avec plus d'un petit nombre de participants et avec quelques vérifications, la majorité a sélectionné des candidats d'intérêt et effectué des tests Western blot, ELISA ou MRM. Un exemple représentatif est l'étude de Zhang et al ( 2012 ) dans lequel le plasma appauvri de 10 patients atteints de cancer colorectal par rapport aux témoins a été marqué avec iTRAQ et fractionné, conduisant à l'identification de 72 protéines. Parmi plusieurs protéines régulées à la hausse ou à la baisse, ORM2 a été suivie par ELISA chez 419 individus. Étant donné que cette protéine fait partie du système immunitaire inné (comme les deux autres candidats régulés à la hausse), il est peu probable qu'il s'agisse d'un marqueur spécifique du cancer. Dans une autre étude, la super-déplétion, le marquage iTRAQ et le fractionnement ont identifié 830 protéines dans une cohorte de découverte de 751 patients présentant des événements cardiovasculaires et des témoins qui avaient été réduits à 50 échantillons regroupés (Juhasz et al, 2011 ). Les marqueurs connus CRP et fibronectine ont été sélectionnés dans la liste des candidats et se sont avérés être significativement régulés à la hausse dans la cohorte d'origine par des dosages immunologiques contre ces protéines. Dans une étude de transplantation cardiaque, l'analyse du plasma appauvri et marqué à l'iTRAQ de 26 patients à cinq moments avant et après la chirurgie a identifié un total de plus de 900 protéines (273 par individu Cohen et al, 2013 ). Les tests MRM et ELISA contre cinq protéines moyennement abondantes dans une cohorte de suivi partiellement indépendante de 43 personnes ont servi à développer un pipeline informatique pour les marqueurs de risque de rejet d'organe. Dans une approche d'utilité clinique potentielle, le plasma appauvri d'un modèle murin de cancer du sein a permis l'identification de plus de 1 000 protéines plasmatiques parmi lesquelles 88 ont été sélectionnées pour des tests MRM dans une cohorte de vérification indépendante de 80 animaux (Whiteaker et al, 2011 ).

Stratégie de biomarqueurs rectangulaires et profilage du protéome plasmatique

Au cours des dernières années, la communauté a considérablement amélioré tous les aspects du flux de travail de la protéomique basée sur MS. Dans la préparation des échantillons, les flux de travail de préparation laborieux à plusieurs étapes ont été remplacés par un traitement robuste à flacon unique avec un minimum d'étapes de manipulation. Cela contribue également à l'automatisation et augmente le débit. La sensibilité et la vitesse de séquençage des instruments MS se sont améliorées plusieurs fois. L'ensemble du système LC-MS/MS est devenu beaucoup plus robuste, bien que cela soit encore loin de ce qui sera nécessaire pour une application clinique de routine. Enfin, l'analyse bioinformatique des résultats est désormais statistiquement solide et simple à utiliser et permet de plus en plus la corrélation des résultats de la SEP avec un large éventail d'autres données cliniques classiques et « omiques » supplémentaires. Illustrant la puissance de la protéomique de pointe basée sur la SEP, les lignées cellulaires peuvent désormais être quantifiées en routine à une profondeur de plus de 10 000 protéines différentes en un temps relativement court, parfois même sans aucun fractionnement (Mann et al, 2013 Richard et al, 2015 Sharma et al, 2015 Bekker-Jensen et al, 2017 ).

Compte tenu de ces progrès technologiques de la protéomique dans les lignées cellulaires et les échantillons de tissus, nous nous sommes demandé si l'on pouvait également développer un workflow rapide et automatisé qui quantifierait le protéome plasmatique en profondeur dans un grand nombre d'échantillons (Geyer et al, 2016a ). Nous avons pensé que cela permettrait alors une « stratégie rectangulaire » dans laquelle autant de protéines que possible sont mesurées pour autant d'individus et de conditions que possible. Contrairement au flux de travail triangulaire, la cohorte de découverte initiale serait beaucoup plus importante, englobant idéalement des centaines ou des milliers de participants, ce qui augmenterait la probabilité de révéler des modèles susceptibles de différencier les groupes ou les conditions étudiés. Ces plus grands nombres initiaux de protéomes plasmatiques permettraient la découverte de différences et de changements statistiquement significatifs, mais faibles, associés à un groupe de protéines. Dans la stratégie rectangulaire proposée, les cohortes de découverte et de validation seraient toutes deux mesurées par la protéomique au fusil de chasse en grande profondeur. Cela supprime la dépendance de la validation à la découverte, ce qui signifie que les deux cohortes peuvent être analysées ensemble (Fig 4A). De plus, le fait d'avoir des cohortes distinctes permet de démasquer les facteurs de confusion spécifiques à l'étude. Un autre avantage de la stratégie rectangulaire est sa capacité à découvrir et à valider des modèles de protéines caractéristiques d'états de santé ou de maladies particuliers, en plus des candidats biomarqueurs uniques, ce qui est impossible avec l'approche triangulaire.

Figure 4. Flux de travail rectangulaire

Il est intéressant de noter qu'un changement de concept analogue s'est déjà produit il y a plusieurs années pour les études d'association pangénomique (GWAS). Les chercheurs dans ce domaine ont découvert que l'analyse conjointe d'autant d'échantillons que possible était supérieure à un pipeline séquentiel (Skol et al, 2006 ). En protéomique, le défi évident est d'atteindre une profondeur protéomique suffisante en peu de temps, idéalement sans épuisement et dans un flux de travail robuste. Cet objectif n'a pas été atteint au moment de la rédaction, mais le rythme actuel des améliorations technologiques promet de le rendre réalisable dans un proche avenir. Ci-dessous, nous discutons de quatre exemples de cette approche émergente.

Le premier d'entre eux a étudié une cohorte de 36 paires de jumeaux monozygotes et 22 dizygotes pour déterminer l'influence du contexte génétique sur les niveaux de protéines plasmatiques (Liu et al, 2015 ). Les auteurs ont établi une bibliothèque spectrale à l'aide d'échantillons épuisés, fractionnés et regroupés et ont mesuré leurs échantillons avec une acquisition indépendante des données (DIA). Un total de 232 échantillons de plasma ont ensuite été mesurés avec des gradients de 35 minutes dans un mode indépendant des données, conduisant à la quantification cohérente de 1 904 peptides et 342 protéines. Fait intéressant, les niveaux de protéines étaient souvent relativement stables au sein des individus par rapport à entre les individus. De plus, il y avait des indications claires que les niveaux de certaines protéines étaient sous contrôle génétique. Par exemple, les processus liés à la « réponse immunitaire » et à la « coagulation sanguine » avaient tendance à être héréditaires, contrairement à ceux associés à la « réponse hormonale ». Bien qu'il s'agisse d'une étude pionnière, le nombre de protéomes plasmatiques analysés était relativement faible compte tenu de la généralité de la question de recherche posée. En règle générale, les études génétiques enquêtent régulièrement sur des milliers de participants pour déceler des effets héréditaires subtils, illustrant la nécessité d'un débit beaucoup plus élevé en protéomique clinique.

Malmström et al ( 2016 ) ont induit une septicémie chez la souris en injectant S. pyogenes et ont suivi leurs protéomes plasmatiques à travers trois points dans le temps sur des échantillons non appauvris et non fractionnés. Une bibliothèque de divers tissus de souris a été utilisée pour prendre en charge les identifications indépendantes des données ainsi que pour déterminer l'origine des protéines des lésions tissulaires. De cette façon, des séquences de 2 heures ont quantifié en moyenne 786 protéines de souris, bien qu'il faille noter que les critères FDR appropriés pour déduire les identités peptidiques dans les spectres complexes DIA MS/MS sont toujours en cours de discussion (Nesvizhskii et al, 2007 Bruderer et al, 2017 Rosenberger et al, 2017 ). Plusieurs catégories attendues de protéines plasmatiques ont augmenté au cours de la septicémie, ainsi que certains marqueurs associés à des dommages au système vasculaire. Certains des changements étaient liés à la mobilisation du système immunitaire contre l'agent pathogène, et d'autres semblaient être corrélés à la nécrose chez les animaux gravement atteints.

Dans un flux de travail appelé "profilage du protéome plasmatique", nous nous sommes concentrés sur l'analyse rapide et robuste de seulement 1 l de plasma non appauvri à partir d'un seul doigt (Geyer et al, 2016a ). Le temps de gradient total n'était que de 20 min, permettant une étude approfondie de la variation analytique, intra-essai, intra-individuelle et inter-individuelle du protéome plasmatique. Sur la base de la quantification de 300 protéines plasmatiques, environ 50 biomarqueurs approuvés par la FDA ont été couverts par une quantification sans étiquette (CV < 20%). L'analyse rapide d'un large éventail d'échantillons a également révélé différents ensembles de marqueurs de qualité qui classaient clairement les échantillons présentant des signes de lyse des globules rouges, ceux présentant une activation partielle de la cascade de coagulation en raison d'une manipulation inappropriée des échantillons et ceux présentant des contaminations exogènes telles que les kératines. Même si cette étude a fourni un aperçu utile du contenu informatif du protéome plasmatique, la profondeur de la couverture n'était pas encore suffisante pour traiter les protéines plasmatiques régulatrices de faible niveau. Une seule étape de fractionnement a donné un protéome plasmatique quantitatif d'environ 1 000 protéines, dont 183 protéines avec une concentration rapportée de < 10 ng/ml, mais au prix de temps de mesure plus longs par échantillon.

Une version améliorée du flux de travail de profilage du protéome plasmatique a permis la préparation et la mesure robotiques de près de 1 300 échantillons de protéome plasmatique dans une étude de perte de poids (Geyer et al, 2016b ). L'analyse en quatre exemplaires des individus a capturé la dynamique d'une moyenne de 437 protéines lors de la perte de poids et sur une année de maintien du poids. La perte de poids elle-même a eu un large effet sur le protéome plasmatique humain avec 93 protéines significativement modifiées. Les différences quantitatives étaient souvent faibles mais physiologiquement significatives, comme une réduction de 16 % du facteur adipocytaire SERPINF1. La conception de l'étude longitudinale dans laquelle les individus ont subi une perte de poids moyenne de 12% pendant 1 an a permis de capturer la dynamique à long terme du protéome plasmatique et de le catégoriser en protéines stables à l'intérieur et entre les individus. Les schémas multiprotéiques reflétaient le système d'homéostasie lipidique (famille des apolipoprotéines), l'inflammation de bas niveau et la résistance à l'insuline. Ces schémas ont quantifié les avantages de la perte de poids au niveau de l'individu, ouvrant potentiellement à des recommandations de traitement et de style de vie individualisés.

Ensemble, ces études mettent également en évidence les avantages des études longitudinales par rapport aux études transversales, car le protéome plasmatique a tendance à être beaucoup plus constant au sein d'un individu au fil du temps qu'entre différents individus. De plus, ils sont similaires en ce sens qu'ils utilisent du plasma non appauvri moins sujet aux biais, et identifient de nombreuses protéines dans un temps d'analyse donné (jusqu'à 20 protéines/min).

En ce qui concerne la question de savoir combien de protéines doivent être couvertes, nous avons constaté qu'une profondeur protéomique de plus de 1 500 protéines dans le plasma non appauvri permet la couverture des protéines de fuite tissulaire telles que les récepteurs des lipoprotéines hépatiques et est à la portée des capacités technologiques actuellement en cours. développé. Parmi les 300 premières protéines les plus abondantes, une protéine sur quatre est un biomarqueur, alors que dans les 1 200 protéines suivantes, ce n'est qu'une protéine sur 25 (figure 5). Comme il n'y a pas a priori raison pour laquelle les biomarqueurs devraient avoir une distribution d'abondance asymétrique, cela suggère que de nombreux biomarqueurs sont encore à trouver. Nous pensons que la véritable promesse du profilage du protéome plasmatique à l'aide de la stratégie rectangulaire est qu'il peut découvrir des protéines et des modèles de protéines qui n'ont pas encore été considérés comme des biomarqueurs. L'augmentation exponentielle de la technologie LC-MS/MS sous-jacente stimulera une augmentation correspondante du nombre d'ensembles de données sur le protéome plasmatique enregistrés dans les laboratoires du monde entier. Cela créera une vaste base de données sur les protéomes plasmatiques et leur dynamique, impliquant de nombreuses études cliniques et individus. Ces données pourraient ensuite être agrégées pour constituer une base de connaissances reliant les états du protéome à une grande diversité de « perturbations », y compris les maladies, les risques, les traitements et les modes de vie. Au minimum, cette approche révélera toutes les différentes conditions dans lesquelles un ensemble donné de biomarqueurs est impliqué, en plus du contexte spécifique dans lequel ils ont été découverts. Le chevauchement du protéome entre les maladies pourrait révéler des points communs entre eux (figure 4B, panneau supérieur). Le profil du protéome plasmatique d'un individu et sa dynamique pourraient alors être interprétés en le comparant à la base de connaissances mondiale. Cela pourrait être utilisé pour déconvoluer les comorbidités et pour guider le traitement et surveiller l'efficacité (Fig 4B, panneau inférieur).

Figure 5. Distribution des biomarqueurs dans l'aire d'abondance

Standardisation du pipeline de découverte de biomarqueurs protéomiques

Il a été suggéré que le manque actuel de biomarqueurs entrant sur le marché peut être le résultat de divers aspects techniques, scientifiques et politiques, y compris la sous-évaluation, résultant de normes réglementaires incohérentes et le manque de preuves de la validité analytique et de l'utilité clinique (Hayes et al, 2013 ). Pour surmonter ces défis, des pipelines systématiques pour le développement de biomarqueurs ont été préconisés (Pavlou et al, 2013 Duffy et al, 2015 ). Dans le contexte du passage d'une stratégie triangulaire à une stratégie rectangulaire de découverte de biomarqueurs, il sera particulièrement important de considérer les principes suivants.

(1) Caractéristiques de performance analytique : La validité analytique est la capacité d'un test à fournir une mesure précise et fiable d'un biomarqueur. L'établissement de la validité analytique de la méthodologie de la protéomique du plasma sera essentiel, car la même méthode sera souvent appliquée de la découverte à l'application. Des normes détaillées pour déterminer la validité analytique ont été élaborées par le Clinical and Laboratory Standards Institute (CLSI) (www.clsi.org). Un aperçu peut être trouvé dans Grant et Hoofnagle ( 2014 ) et Jennings et al (2009). Certaines de ces normes ont été reconnues par la Food and Drug Administration (FDA) des États-Unis et sont acceptées pour apporter in vitro test de diagnostic sur le marché (https://www.accessdata.fda.gov/scripts/cdrh/cfdocs/cfstandards/search.cfm). Même si commencer par une validation analytique complète conforme aux normes de la FDA peut être prohibitif dans la découverte de biomarqueurs, au moins certains des critères clés, tels que le transfert, l'exactitude, la précision, la sensibilité analytique, la spécificité analytique et la limite de quantification, doivent être testés. tôt. Ceci est conforme à ce que nous préconisons dans le cadre de la stratégie rectangulaire et est également dans l'intérêt d'économiser des ressources, car l'étape suivant la découverte de biomarqueurs est la validation de biomarqueurs, où la validité analytique sera obligatoire.

(2) Caractéristiques de performance clinique : La validité clinique se rapporte aux maladies associées et aux conditions cliniques des patients et est différente de la validité analytique, qui se concentre sur la mesure correcte des analytes ciblés par le test. Selon l'Organisation internationale de normalisation (ISO) 15189 et ISO 17025, la validation est la «confirmation, par la fourniture de preuves objectives, que les exigences pour une utilisation ou une application spécifique ont été remplies». Par conséquent, l'établissement de la performance clinique est l'objectif principal de la phase de validation d'un biomarqueur. Les caractéristiques de performance clinique comprennent (i) la définition de plages de référence normales en mesurant des cohortes d'individus apparemment en bonne santé, (ii) la détermination de la sensibilité clinique, qui est définie comme la proportion d'individus atteints de la maladie et testés positifs, et (iii) la détermination de la spécificité clinique , qui est défini comme la proportion d'individus indemnes de maladie qui sont testés négatifs. Les statistiques dérivées telles que les graphiques ROC (Receiver Operating Characteristic) sont particulièrement utiles pour évaluer la performance clinique des biomarqueurs (Zweig & Campbell, 1993 Obuchowski et al, 2004 ).

(3) Conception de l'étude et pré-analyse : une conception de l'étude minutieuse et des conditions pré-analytiques bien contrôlées sont des exigences clés à tout moment au cours d'une étude de biomarqueurs. En ce qui concerne la conception de l'étude, il est obligatoire de définir clairement la question clinique et le besoin médical auquel doit répondre le biomarqueur. Un problème courant dans les études de biomarqueurs est que les échantillons de cas et de témoins ont été collectés indépendamment et ne correspondent pas pour l'âge, l'origine ethnique, le sexe et d'autres facteurs qui peuvent ou non conduire à un biais non intentionnel (Duffy et al, 2015 ). Les méthodes contre les biais comprennent une conception d'étude appropriée ainsi qu'un phénotypage clinique précis et approfondi des participants, en utilisant des classifications systématiques telles que la Classification statistique internationale des maladies (http://apps.who.int/classifications/icd10/browse/2016/en) ou l'ontologie du phénomène humain (Kohler et al, 2017 ). De cette façon, si une personne souffre de plusieurs maladies, cela peut être correctement pris en compte. Le prélèvement d'échantillons est également important et il est impératif que tous les échantillons (y compris les cas et les témoins) soient traités de la même manière, de la prise de sang à la phase analytique. Une autre étape critique dans de nombreuses études de biomarqueurs est la biobanque. Lors de l'utilisation d'ELISA, nous avons constaté que le stockage de biomarqueurs à base de protéines pendant 3 mois nécessite des températures de -80°C ou moins (Zander et al, 2014 ). La stabilité de l'échantillon pour des périodes plus longues n'est que peu étudiée. Cependant, d'après notre expérience, la protéomique en fusil de chasse a une tolérance élevée à la variation de l'historique de l'échantillon, car il n'y a pas d'épitopes protéiques qui doivent être préservés et même une dégradation partielle des protéines peut être tolérable tant que la majorité des peptides protéolytiques générés par la suite restent inchangés.

La voie de l'application clinique

Les progrès actuels de la protéomique plasmatique ouvrent de nouvelles voies passionnantes pour la recherche et la clinique. Quelle est la probabilité, compte tenu de toutes les précautions susmentionnées, que les approches décrites conduiront à la découverte de nouveaux biomarqueurs à base de protéines ? Et à quoi ressemblera le biomarqueur protéomique du futur ? Un thème clé dans ce contexte est le pouvoir discriminant d'un biomarqueur pour distinguer la présence et l'absence d'un état ou d'un risque pathologique particulier, en d'autres termes sa performance clinique. Des exemples de biomarqueurs actuellement utilisés avec une spécificité et une sensibilité élevées sont les troponines cardiaques, qui sont des protéines structurelles spécifiquement exprimées dans les cardiomyocytes et donc hautement spécifiques des lésions myocardiques. Pour cette raison, les troponines cardiaques ont même été incorporées dans la définition universelle de l'infarctus du myocarde (Roffi et al, 2016 ).

Il est probable que les approches protéomiques réussiront à identifier des biomarqueurs supplémentaires avec des performances similaires, au moins pour certaines maladies. En effet, il faut être conscient que la plupart des biomarqueurs utilisés aujourd'hui sont soit très abondants, soit issus d'un contexte physiopathologique connu. À titre d'expérience de pensée, nous avons extrapolé le rapport du nombre de biomarqueurs par rapport au nombre de protéines dans la plage d'abondance élevée à la plage de protéines d'abondance inférieure, ce qui indique le potentiel de plusieurs centaines de nouveaux biomarqueurs, qui pourraient être accessibles avec une technologie appropriée ( figure 5). Par analogie avec GWAS, où un nombre important de résultats s'est avéré être lié à une physiopathologie jusqu'alors inconnue de la maladie étudiée (Holdt & Teupser, 2013 Manolio, 2013), il est fort probable que de nouveaux marqueurs, qui se sont cachés sous le radar de stratégies précédentes, seront identifiées par de nouvelles approches protéomiques systématiques. Ces biomarqueurs peuvent également avoir le potentiel d'améliorer notre compréhension de la physiopathologie de la maladie non seulement dans le diagnostic mais aussi pour la thérapie. Notez, cependant, que les biomarqueurs identifiés peuvent ne pas toujours être directement impliqués dans la physiopathologie de la maladie mais peuvent seulement y être associés.

Le génome humain code pour environ 20 000 gènes codant pour des protéines, ce qui s'oppose à plus de 14 500 maladies classées par un code ICD. Cela rend même conceptuellement difficile d'imaginer qu'un gène ou une protéine soit associé à chaque maladie, comme cela est souvent impliqué dans les efforts actuels pour trouver des biomarqueurs. En revanche, la stratégie rectangulaire, permettant de cribler de grandes cohortes pour plusieurs marqueurs, est très prometteuse pour découvrir et valider les modèles de protéines caractéristiques d'états de santé ou de maladies particuliers. En effet, les combinaisons de plusieurs marqueurs peuvent atteindre une spécificité et une sensibilité plus élevées par rapport aux marqueurs uniques et les premiers outils pour sélectionner des combinaisons de marqueurs précises à partir de données omiques ont été développés (Mazzara et al, 2017 ). Cependant, un problème courant avec les nouveaux biomarqueurs combinés à ceux existants est qu'ils ne conduisent souvent qu'à des améliorations mineures de la classification, en particulier lorsqu'ils sont ajoutés à des plus performants (Pencina et al, 2010 ). Contrairement aux hypothèses courantes et intuitives, il a été démontré que la corrélation (en particulier la corrélation négative) entre les prédicteurs peut être bénéfique pour la discrimination (Demler et al, 2013 ). Davantage de recherche dans ce domaine est clairement justifiée, et les nouvelles technologies protéomiques fourniront les données nécessaires à la validation de méthodes statistiques appropriées.

Enfin, comment ces marqueurs seront-ils applicables en milieu clinique ? Nous privilégions la mesure en profondeur de l'ensemble du protéome plasmatique quelle que soit l'occasion, car elle fournit l'information la plus complète. Au fil du temps, il s'ajoute au profil longitudinal du protéome plasmatique qui pourrait être utilement obtenu même chez des sujets sains. Comme mentionné ci-dessus, les niveaux de protéines plasmatiques ont tendance à être généralement stables mais spécifiques à la personne, permettant une interprétation spécifique à l'individu au lieu de valeurs seuil basées sur la population. De plus, les comorbidités sont la règle plutôt que l'exception dans de nombreux groupes de patients. Ceux-ci sont traités beaucoup plus facilement et économiquement par un test de diagnostic générique tel que le profilage protéomique plasmatique plutôt que par une succession de tests ELISA individuels. Néanmoins, il y aurait clairement de nombreuses situations dans lesquelles un test universel ne serait pas approprié car il pourrait découvrir par inadvertance d'autres conditions. Des problèmes similaires se posent avec d'autres technologies telles que le séquençage du génome ou les techniques d'imagination, où les individus peuvent ne pas vouloir en savoir plus sur les prédispositions contre lesquelles ils ne peuvent pas faire grand-chose. Dans ces cas et généralement pour éviter le risque de surdiagnostic (Hofmann & Welch, 2017), les cliniciens peuvent préférer des tests de protéomique plasmatique de nature plus ciblée qui se concentrent sur un contexte pathologique particulier. Cela pourrait être accompli par les techniques MS mentionnées ci-dessus ciblant un panel de protéines, plutôt que le protéome entier.

Que ce soit pour les tests de diagnostic du protéome entier ou les tests basés sur un panel, la question se pose de savoir comment les médecins traiteraient les données multidimensionnelles résultantes. La figure 6A montre les diagnostics actuels de biomarqueur unique/oligo, qui sont intégrés à la prise de décision en grande partie sur la base des connaissances cliniques et de l'intuition. De nouveaux biomarqueurs promettent clairement des décisions cliniques mieux informées, mais impliquent également le risque de générer des modèles dépassant la capacité cognitive humaine d'interprétation (Fig 6B). Une solution à ce problème pourrait être la combinaison algorithmique de plusieurs biomarqueurs dans un panel quantitatif, éventuellement combiné avec des métadonnées cliniques, ce qui pourrait considérablement aider la prise de décision clinique (Fig 6C). Compte tenu des développements rapides du « deep learning » et du « big data », il sera très intéressant de voir si cette combinaison peut fournir des associations puissantes et inédites. On constate qu'il existe déjà aujourd'hui des scores multiparamétriques en pratique clinique. Par exemple, le score de Child-Pugh et le score de risque de Framingham ont chacun combiné plusieurs valeurs sanguines avec les données des patients, pour aider le clinicien à prendre sa décision dans le traitement des maladies du foie et du traitement cardiovasculaire, respectivement, pendant des décennies. Cela suggère également une manière dont la protéomique plasmatique pourrait être acceptée dans la pratique médicale fondée sur des preuves, un énorme défi étant donné les nombreux paramètres et combinaisons de paramètres impliqués, qui ne peuvent clairement pas tous être validés par des essais cliniques distincts. Une alternative pragmatique pourrait être de concevoir des essais dans lesquels les médecins obtiennent au hasard les informations protéomiques et l'aide à la décision associée. Il serait alors simple de déterminer s'il y a un avantage significatif dans les résultats pour les patients.

Figure 6. Implémentation des données protéomiques dans les décisions cliniques

Conclusion

Le bilan de la pratique actuelle en médecine de laboratoire montre que la majorité des décisions thérapeutiques sont prises sur la base de tests sanguins et que les dosages protéiques sont encore aujourd'hui les plus importants d'entre eux. Bien qu'ils soient effectués avec succès par des millions de personnes chaque année, ces tests sont presque toujours dirigés contre des protéines individuelles et le rythme d'introduction de nouveaux tests de protéines s'est ralenti.

La protéomique basée sur la SEP a clairement le potentiel pour des mesures multiplexées et hautement spécifiques, dans lesquelles des modèles de protéines plutôt que des biomarqueurs uniques pourraient être la lecture pertinente. Notre revue de la littérature a révélé que les efforts passés ont été freinés par les grands défis analytiques du protéome plasma, ce qui ne fait que céder la place à des développements technologiques passionnants. Nous soutenons que l'analyse d'un grand nombre de conditions et de participants à toutes les étapes du processus de découverte et de validation a le potentiel de produire des panels de biomarqueurs susceptibles d'avoir une valeur clinique. Lorsqu'elle est couplée à de vastes bases de connaissances sur les modifications des profils protéiques dans des conditions définies, une telle stratégie de profilage du protéome plasmatique pourrait en principe exploiter l'intégralité du contenu informationnel de ce fluide corporel.

Pour faire de cette vision une réalité, de nouvelles améliorations du débit, de la profondeur de la couverture du protéome, de la robustesse et de l'accessibilité du flux de travail sous-jacent sont cruciales. De plus, la protéomique plasmatique peut également être étendue à l'analyse des modifications post-traductionnelles. De même, la métabolomique plasmatique utilise également des flux de travail basés sur MS et pourrait être intégrée de manière routinière à la protéomique plasmatique à l'avenir. Nous sommes convaincus que les développements technologiques requis peuvent et seront tous réalisés au fil du temps. Au moins autant d'un défi sera conceptuel et « politique », car le déluge d'informations protéomiques doit être transformé en données exploitables pour le médecin et le système de santé. Cela exigera un engagement dévoué et infatigable de tous les partenaires impliqués. Nous pensons que la promesse de diagnostics beaucoup plus précis et spécifiques récompensera amplement de tels efforts.


Résultats

Analyse de la croissance des plantes

Des racines de carottes au stade plantule (20 DAS, S1), au stade casseur (40 DAS, S2) et au stade mature (90 DAS, S3) ont été récoltées, respectivement (Figures 1A & 2013C). À 20 JAS, la racine de carotte était blanche et le poids de la racine fraîche était évidemment inférieur au poids de la pousse (figure 1D). Au stade de cassure, la racine de carotte a commencé à montrer une couleur orange à la surface et le poids des pousses fraîches a été grandement amélioré. Au cours de cette étape, ni le poids des racines fraîches ni le diamètre n'ont montré de changements significatifs (figure 1E). Au cours de la période de temps suivante, la racine a poussé rapidement et le poids frais de la racine pivotante était plus élevé que celui de la pousse (figure 1D). Pendant ce temps, le diamètre des racines a été significativement augmenté au cours de la croissance des racines de carotte (figure 1E).

Figure 1. Caractéristiques morphologiques des carottes à trois stades de développement. (A𠄼) Statut de croissance de la carotte ‘Karodagosun’ à 20 JAS (UNE), 40 DAS (B), et 90 DAS (C). Les lignes noires dans le coin inférieur droit de chaque image représentent 5 cm. (RÉ) Poids frais de racines de carotte à trois stades de développement. (E) Diamètre des racines des carottes à trois stades de développement. Des lettres minuscules différentes indiquent des différences significatives à P < 0,05.

Pour explorer davantage les changements anatomiques au cours du développement de la racine de carotte, Safranin-O/La coloration verte rapide a été utilisée pour afficher la structure de différents tissus végétaux (Figure 2). En présence de coloration, les parois cellulaires lignifiées peuvent devenir rouges. Comme le montre la figure 2A, il y avait des quantités de cellules de bordure de grande taille au cours de la phase de semis. A ce stade, le phloème et le protoxylème étaient petits et la lignification n'était pas évidente (Figure 2B). Avec l'augmentation du nombre et de la taille de ces cellules, les racines de carotte ont commencé à s'épaissir. Au deuxième stade, le cambium vasculaire se divise constamment. De nombreux vaisseaux étaient étroitement disposés dans le xylème et la lignification de la paroi cellulaire était considérablement augmentée (figures 2C, D). Par la suite, au stade ultérieur du développement des racines (figures 2E & 2013G), la distribution des vaisseaux dans le xylème a considérablement changé, qui a commencé à s'étaler en grappes au lieu de s'arranger étroitement. Pendant ce temps, un grand nombre de granules d'amidon se sont accumulés rapidement pendant cette période.

Figure 2. Structure anatomique des racines de carotte du stade 1 (UN B), Étape 2 (CD) et étape 3 (E–G). BC, cellules frontières EP, épiderme PC, cellule parenchymateuse Ph, phellogène PP, phloème primaire Px, protoxylème SG, granule d'amidon VC, cambium vasculaire Ve, vaisseau. Le grossissement est 200 fois la taille d'origine en (A𠄽) alors que le grossissement est de 400 fois en (E–G).

Identification et quantification des protéines

La technologie iTRAQ a été utilisée pour analyser les protéines obtenues à partir des racines de carotte aux stades adjacents. Au total, 2 845 protéines ont été détectées. Au cours de la période de croissance des racines de la carotte, un total de 226 et 418 DEP ont été identifiés au stade de cassure (S2) et au stade mature (S3), respectivement (Matériel supplémentaire S2). De plus, 118 DEP étaient présents simultanément dans les deux étapes (Figure 3A).

Figure 3. Changements globaux du niveau de protéines tout au long du développement des racines de carotte. (UNE) Diagramme de Venn montrant le nombre de protéines communément et uniquement exprimées à différents stades de développement. Les nombres dans un ovale désignent des protéines spécifiques à la phase, et le nombre dans deux ovales qui se croisent représentent des protéines superposées. (B) Nombre de protéines différentiellement exprimées entre deux stades de développement consécutifs. (C) Changements moyens et max/min de la protéine différentiellement exprimée log2-changement entre deux stades de développement consécutifs.

La figure 3B a affiché le nombre de protéines régulées à la hausse et à la baisse pendant la croissance des racines de carotte. Dans chaque phase, le nombre de protéines régulées à la hausse et à la baisse était similaire. Cependant, le nombre de DEP au stade de maturité était presque le double de celui au stade de rupture. Pendant ce temps, la moyenne et la valeur minimum/maximum des DEP ont été illustrées sur la figure 3C. Au stade de maturité, l'amplitude changeante des DEP était relativement plus prononcée.

Classification des protéines spécifiques au processus métabolique

Sur la base de la base de données GO, nous avons effectué une annotation fonctionnelle de tous les DEP entre deux stades de développement consécutifs. Les 20 principaux termes GO de trois catégories ‘processus biologique,’ 𠆌omposants cellulaires,’ et 𠆏onction moléculaire’ conformément à leur P-les valeurs ont été affichées dans la figure supplémentaire S1, le matériel supplémentaire S1. La plupart des DEP ont été enrichis dans le groupe « composants cellulaires » à la fois dans les deux ensembles (S2/S1, S3/S2). Pendant ce temps, la grande majorité des termes GO de ce groupe étaient assez proches. Par exemple, les termes ‘nucleus’ et ‘nucleolus’ étaient les termes GO les plus représentés dans les deux S2/S1 (63 et 55 DEP, respectivement) et S3/S2 (91 et 79 DEP, respectivement). Le même phénomène s'est produit dans la 𠆏onction moléculaire’. Pour le processus biologique, il y avait quelques différences entre les termes GO des deux ensembles. La ‘réponse à la privation d'eau’ et l'𠆊ssemblage de nucléosome’ contenaient le plus de DEP dans S2/S1 (19 DEP) et S3/S2 (28 DEP), respectivement.

Les voies biologiques ont également été analysées en utilisant la base de données KEGG (Figure 4). Au total, douze voies étaient cohérentes dans les deux ensembles. Parmi eux, ‘traitement de l'information génétique,’ ‘processus cellulaire,’ ‘métabolisme énergétique,’ et ‘systèmes organiques’ ont pris les plus grandes proportions de toutes les voies dans S2/S1 (37,4, 22,3, 9,7 et 7,6 %, respectivement) et S3/S2 (31,6, 17,9, 10,4 et 10,2 %, respectivement). Les voies du métabolisme des lipides, du métabolisme des terpénoïdes et des polycétides et de la biosynthèse et du métabolisme des glycanes ont été spécialement trouvées dans S3/S2.

Figure 4. Classification KEGG des DEP identifiés à partir de racines de carotte à différents stades de développement. (UNE) Classification KEGG des DEP identifiés entre S1 et S2. (B) Classification KEGG des DEP identifiés entre S2 et S3.

Profils des clusters fonctionnels de protéines au cours du développement de la racine de carotte

Le protéome du tissu de la carotte détermine la croissance et le développement de la racine charnue. Différents niveaux d'expression de diverses protéines au cours du développement de la racine de carotte soulignent une fonction et une importance particulières à différentes phases. Comme le montre la figure 5, certains des DEP ont été regroupés en fonction de leurs fonctions biologiques putatives. Au cours du développement de la racine de carotte, les niveaux d'expression de plusieurs protéines liées aux agents pathogènes (Figure 5B), liées au stress (Figure 5C), liées à la dégradation des protéines (Figure 5K) et de signalisation (Figure 5L) ont continué de s'améliorer. En ce qui concerne les protéines impliquées dans le métabolisme des acides organiques (figure 5D), la majorité de ces DEP étaient régulées à la baisse à S2. Au contraire, les niveaux d'expression ont montré une augmentation à maturité. Les résultats ont également montré la diminution de l'expression des facteurs d'élongation (Figure 5G), des enzymes antioxydantes (Figure 5H), des protéines liées à la photosynthèse et à l'énergie (Figure 5N) et des protéines de transport (Figure 5O). Dans l'ensemble, différentes protéines ayant la même fonction ont exprimé des tendances différentes.

Figure 5. Analyse de regroupement hiérarchique de l'expression des protéines à différents stades de développement. Les cartes thermiques ont été créées par l'abondance relative log2 des protéines. Le numéro d'accession et la description de la protéine pour chaque protéine ont été présentés. Les protéines ont été regroupées selon leur rôle dans les voies métaboliques. (A–O) Représenter différentes fonctions protéiques.

Identification des protéines expansines dans la carotte

Sur la base de l'annotation des protéines, deux protéines d'expansine ont été obtenues à partir des données protéomiques des racines de carotte à différents stades de développement. Informations, y compris pi, la protéine Mw et ainsi de suite ont été répertoriés dans le tableau 1. Les niveaux d'expression de ces deux protéines d'expansine étaient similaires, qui ont d'abord augmenté puis diminué.

Tableau 1. Annotation et expression de protéines d'expansine identifiées.

Afin d'identifier les gènes de ces deux protéines expansines, des amorces de clonage ont été conçues en fonction des séquences protéiques. Deux DcEXP gènes, DcEXP20 et DcEXP22 ont été clonés par RT-PCR et leurs cadres de lecture ouverts (ORF) étaient de 786 pb et 789 pb, codant respectivement 261 et 262 acides aminés (figure supplémentaire S2, matériel supplémentaire S1).

Pour faire une enquête approfondie sur l'importance des expansines, nous avons criblé différents gènes d'expansine dans le génome de la carotte. Selon le résultat de l'explosion du génome de la carotte, un total de 30 gènes d'expansion de la carotte ont été identifiés. Ces gènes d'expansine ont été nommés comme DcEXP1-DcEXP30 à la lumière de la nomenclature précédente (Kende et al., 2004). Les gènes correspondant aux deux protéines expansines différentiellement exprimées ont été annotés comme DcEXP20 (N° d'accès : g13058) et DcEXP22 (N° d'accession : g63815), respectivement. Afin d'explorer la relation évolutive entre les expansines de la carotte, la méthode de voisinage-jointure (NJ) a été utilisée pour construire un arbre phylogénétique basé sur les séquences entières de Arabidopsis et les protéines d'expansine de carotte (figure 6 et figure supplémentaire S3, matériel supplémentaire S1). Tous les DcEXP ont été regroupés en quatre sous-familles : EXPA, EXPB, EXLA et EXLB. La sous-famille EXPA avait la plus grande taille, qui se composait de 24 expansines de carotte. Cependant, les sous-familles EXLA et EXLB n'avaient respectivement qu'un seul membre. Pendant ce temps, les deux protéines d'expansine différentiellement exprimées appartenaient à la famille EXPB. La longueur des 30 expansines de la carotte était de 206 acides aminés. Les résultats de l'analyse des propriétés physico-chimiques ont montré que le Mw se situait dans la plage de 22,4�,2 kDa. Leur pi variait de 5,3 à 10,2 (tableau supplémentaire S2, matériel supplémentaire S1). Sous-famille EXLB exclue, la plupart des expansines avaient pi valeurs supérieures à 7,0.

Figure 6. Arbre phylogénétique et compositions de motifs des gènes d'expansion de la carotte.

Analyse structurale des séquences d'acides aminés d'expansine dans la carotte

Les séquences d'acides aminés de 30 expansines dans la carotte ont été alignées (figure supplémentaire S4, matériel supplémentaire S1). La séquence d'acides aminés des protéines qui appartenaient à la même sous-famille avait une similitude beaucoup plus élevée. L'identité alignée entre DcEXP20 et DcEXP22 qui appartiennent tous deux à la sous-famille EXPB était de 74,6%. La plupart des protéines expansines avaient un peptide signal de 16 acides aminés. Cependant, quatre protéines, DcEXP26, DcEXP29, DcEXP16 et DcEXP19 n'avaient pas de peptide signal (tableau supplémentaire S2, matériel supplémentaire S1). Suivi par le peptide signal, plusieurs résidus d'acides aminés conservés ont été identifiés. Dans la sous-famille EXPA et EXPB, toutes les expansines contenaient un motif HFD, excluaient DcEXP11 et DcEXP10 qui contenaient à la place un motif HFV et QFD, respectivement. En général, huit résidus cysteine ​​(Cys) conservés ont été identifiés à la fois dans DcEXPA et DcEXPB, et entre DcEXLA et DcEXLB six. Pendant ce temps, 11, 21 et 14 glycine (Gly) ont également été conservés, respectivement (figure supplémentaire S4, matériel supplémentaire S1).

Les motifs dans les protéines et leurs séquences de motifs détaillées ont été présentés schématiquement sur la figure 6. Dix protéines de la sous-famille EXPA partageaient les dix composants de motifs, et d'autres manquaient d'un ou deux motifs. Les motifs des trois autres sous-familles étaient significativement différents de ceux de l'EXPA. Les membres de la sous-famille EXPB contenaient le motif 4&# x20137, à l'exception de DcEXP19. Cependant, les sous-familles EXLA et EXLB n'ont respectivement qu'un ou deux motifs. Dans l'ensemble, le motif 4 était présent dans toutes les expansines.

Identification basée sur le transcriptome des gènes d'expansine pendant la croissance des racines de carotte

À l'aide des données de transcriptome d'une étude préliminaire dans notre laboratoire (Wang et al., 2015a), nous avons sondé les niveaux de transcription des gènes d'expansine pendant la croissance des racines de carotte. Au total, 26 gènes d'expansine ont été criblés grâce aux données du transcriptome. Nous avons dessiné une carte thermique sur la base des valeurs par kilobase par million (RPKM) pour indiquer leurs profils d'expression (Figure 7). Près de la moitié des gènes d'expansine avaient l'expression la plus élevée au deuxième stade. Cependant, nous n'avons pas trouvé l'existence de DcEXP17 et DcEXP24 en S2. En revanche, DcEXP25 n'existait qu'en S2 au lieu de S1 et S3.

Figure 7. Profils d'expression des gènes d'expansine de carotte.

Analyse du profil d'expression des gènes d'expansine au cours du développement de la racine de carotte

Afin d'étudier le mécanisme moléculaire régulant le développement des racines de carotte, dix gènes d'expansine différents, dont DcEXP20 et DcEXP22 ont été sélectionnés au hasard dans chaque sous-famille d'expansine pour l'analyse de l'expression (figure 8). Le niveau d'expression relatif de chaque gène a été calculé sur la base de l'expression de DcEXP24 à S1 qui détiennent le niveau d'expression le plus bas. À l'exception de DcEXP9, tous les gènes d'expansine ont montré les niveaux d'expression les plus élevés à S2. Parmi ces gènes, le niveau d'expression de DcEXP29 à S2 était plus de 30 fois plus qu'à S1. Au stade mature, les profils d'expression des gènes d'expansine étaient généralement réduits, certains étaient même inférieurs au premier stade. Les résultats de comparaisons entre différents gènes d'expansine ont montré que DcEXP20, DcEXP30, DcEXP13, et DcEXP22 représentaient des niveaux d'expression plus élevés. Par rapport aux résultats de l'iTRAQ, deux expansines exprimées de manière différentielle, DcEXP20 et DcEXP22, présentaient une relation cohérente entre les tendances de l'expression de l'ARNm et l'abondance des protéines. Le coefficient de corrélation entre le niveau d'expression de DcEXP20, DcEXP22 et d'autres gènes d'expansine ont été analysés par analyse de Pearson (tableau 2). Les profils d'expression de DcEXP20 et DcEXP22 étaient positivement corrélées avec huit et six gènes d'expansine, respectivement.

Figure 8. Niveaux d'expression relatifs de 10 gènes d'expansine de carotte. Des lettres minuscules différentes indiquent des différences significatives à P < 0,05.

Tableau 2. Corrélations entre les niveaux d'expression de DcEXP20, DcEXP22, et d'autres gènes d'expansine.


Comment puis-je quantifier ma protéine?

Les techniques disponibles pour la LC-MS quantitative se répartissent en grande partie en deux catégories : (i) la quantification relative et (ii) la détermination de l'abondance des peptides en calibrant par rapport à une norme synthétique marquée par un isotope stable (figure 1). Actuellement, la majorité de la communauté scientifique applique l'ancienne approche aux questions de recherche. Ce dernier, cependant, commence à jouer un rôle de plus en plus important notamment dans les applications cliniques.

La quantification relative basée sur la découverte par LC-MS a permis aux chercheurs de déterminer simultanément les changements dans l'abondance des protéines dans plusieurs échantillons. Comme le dit Bernhard Kuster, « La LC-MS est particulièrement puissante dans le sens où elle peut quantifier beaucoup de protéines en parallèle et sans avoir à connaître a priori quelles protéines on peut vouloir analyser ». Pour vraiment saisir la fonction d'une protéine individuelle et la relation que cette protéine entretient avec les autres dans le contexte d'un système biologique complexe, les changements dans l'abondance des protéines par rapport à ceux du système de base ou standard doivent être mesurés. Comme son nom l'indique, la quantification relative implique la comparaison de quantités de protéines par rapport à une condition désignée, c'est à dire., quelle quantité d'un peptide (et par extrapolation, d'une protéine) y a-t-il dans les conditions B, C, D etc. par rapport à la quantité de ce même peptide dans la condition A. Kuster souligne également que « la LC-MS est également puissante dans le sens où des tests quantitatifs peuvent être développés pour des protéines pour lesquelles aucun anticorps n'existe ou sont de mauvaise qualité ».

En termes plus généraux, il existe essentiellement deux approches pour la quantification relative des protéines par LC-MS. Ce sont : (i) étiquetés et (ii) sans étiquette. La première catégorie est subdivisée en deux moyens de marquer des peptides/protéines dans un protéome. À savoir, via le marquage métabolique qui a été initialement lancé en 1999 3 et plus tard adopté plus largement par la communauté des chercheurs sous la forme de SILAC (stable jesotope jeavec uneacides aminés dans cell culture) 4 . Les protéines peuvent également être modifiées par dérivatisation chimique et de telles approches ont englobé jesotope-coded uneaffinité tags (ICAT) 5 , 18 O marquage 6 , diméthyl marquage 7 et étiquettes de masse isobare, c'est à dire., tandème mcul tag (TMT) et jesobare tag pour rélevé et uneabsolu quantitation (iTRAQ) 8,9 .

Avec SILAC, les échantillons biologiques sont étiquetés in vitro avec une version isotopique lourde de l'acide aminé cible. Au cours de la synthèse des protéines, l'acide aminé naturel est remplacé par une version marquée plus lourde. Les cellules exposées à différentes conditions expérimentales (cultivées dans des milieux légers, moyens ou lourds) peuvent ensuite être mélangées et toutes les étapes de traitement effectuées sur l'échantillon combiné (figure 1, étiquetage métabolique). Cette stratégie diminue considérablement toute variabilité pouvant survenir lors de la préparation des échantillons et présente le net avantage d'une quantification plus précise. Avec par exemple., réactifs TMT 8 , la quantification des protéines multiplexées à haut débit peut être réalisée. Lorsqu'ils sont combinés avec la LC-MS et un logiciel de données protéomiques, actuellement, jusqu'à 16 échantillons différents dérivés de cellules, de tissus ou de fluides biologiques peuvent être analysés simultanément, les peptides/protéines identifiés et les quantités relatives des peptides/protéines calculées (Figure 1 , étiquetage chimique).

La quantification sans marquage par LC-MS a récemment connu un regain de popularité. Ce regain d'intérêt de la communauté s'est principalement développé en raison de l'amélioration de la résolution de masse des spectromètres de masse actuels, de l'amélioration de la stabilité du temps de rétention avec les nouveaux systèmes HPLC et des algorithmes d'analyse de données améliorés qui non seulement alignent plusieurs traces chromatographiques, mais peuvent également extraire de nombreuses caractéristiques des traces. . En parallèle, l'acquisition indépendante des données (DIA) est également apparue comme une approche puissante pour la quantification relative des protéines en profondeur et sans marqueur dans l'ensemble du protéome. Dans l'ensemble, une approche quantitative sans marquage est une alternative très rentable à la fois au SILAC et au TMT et présente le principal avantage de comparer les altérations de l'abondance des protéines sur plusieurs échantillons sans utiliser de marqueurs isotopiques. Les échantillons sont analysés individuellement par LC-MS, un aspect très avantageux dans l'analyse de cohortes composées de centaines, voire de milliers d'échantillons de patients.Avec des algorithmes logiciels sophistiqués, il est désormais beaucoup plus simple d'intégrer des signaux qui correspondent à des ions peptidiques uniques sur toute l'échelle de temps LC. Après l'acquisition des données par LC-MS, les analyses individuelles peuvent être comparées et les caractéristiques chromatographiques communes à tous les échantillons peuvent être alignées (Figure 1, sans étiquette). Les principaux avantages de la quantification du protéome par LC-MS sans marquage sont la possibilité de comparer un nombre illimité d'échantillons et l'obsolescence des stratégies de marquage coûteuses. Un inconvénient majeur, cependant, est qu'il y a une augmentation du temps d'acquisition LC-MS (car chaque échantillon est exécuté consécutivement). Néanmoins, de nouveaux systèmes apparaissent sur le marché qui peuvent fournir des gradients LC très rapides et courts pour diminuer le temps nécessaire à l'analyse de milliers d'échantillons cliniques.

Le concept d'utilisation de peptides synthétisés à isotopes stables comme étalons internes pour la quantification des protéines par LC-MS a été lancé pour la première fois par Desiderio et Kai 10 (Figure 1, étalons enrichis). Ce sont des peptides tryptiques synthétiques qui ont la même séquence d'acides aminés que les peptides naturels d'intérêt. Les peptides synthétisés, cependant, contiennent au moins un acide aminé marqué par un isotope stable qui conduit à une petite augmentation (6-10 Da) de la masse moléculaire. Une quantité « connue » de l'équivalent du peptide synthétique est ajoutée à un produit de digestion protéomique et l'ensemble de l'échantillon est analysé par LC-MS. Le peptide natif et le peptide standard enrichi seront co-élués par chromatographie et ionisés dans le spectromètre de masse. Les m/z des deux peptides, cependant, peuvent être facilement distingués. A partir des chromatogrammes d'ions extraits et du calcul de l'aire sous la courbe pour les deux peptides, une estimation de la quantité de peptide natif peut être calculée en comparant les rapports de pic. La recommandation généralement acceptée est de synthétiser un minimum de trois peptides trypsiques par protéine. Cependant, si la quantification de plusieurs protéines est requise par expérience, le prix grimpe rapidement. De plus, bien que le dopage des normes peptidiques soit une approche assez simple, l'étalonnage de l'abondance des peptides pour refléter le niveau de protéine reste un défi 11 . Des méthodes d'étalonnage alternatives pour résoudre ces difficultés ont été proposées et comprennent, par exemple., l'utilisation d'un pool de référence commun en un seul point 12,13 .


3. MANQUEMENT NON ALÉATOIRE

Luo et al. [17] surmonte les limites des modèles ANOVA grâce à un cadre bayésien qui intègre les données manquantes non aléatoires dans les ensembles de données iTRAQ. Leur modèle suppose que les intensités peptidiques mesurées sont affectées à la fois par les niveaux d'expression des protéines et par les effets spécifiques des peptides. Les valeurs de ces deux effets sur plusieurs expériences sont modélisées comme des effets aléatoires. Lorsqu'un échantillon est étiqueté avec plusieurs balises dans une seule expérience, les variations entre les différentes balises isobares sont également modélisées sous forme d'effets aléatoires. L'absence non aléatoire de données peptidiques est modélisée avec une régression logistique qui relie la probabilité d'absence d'un peptide avec le niveau d'expression de la protéine qui produit ce peptide. Une méthode de Monte Carlo à chaîne de Markov adaptée à ce modèle a été développée pour l'inférence des niveaux d'expression relatifs dans différents échantillons.

3.1 Modèle

Nous nous concentrons sur la description du modèle pour les données iTRAQ de plusieurs expériences et l'estimation des niveaux d'expression relatifs des protéines. Lorsque les données iTRAQ sont obtenues à partir de plusieurs expériences, [17] utilise un modèle hiérarchique bayésien dans le sens où le modèle a une composante d'observation qui modélise les intensités peptidiques observées en tant qu'effets aléatoires dont la distribution conditionnelle dépend des niveaux d'expression protéique et des effets peptidiques attendus. , et un deuxième composant (hiérarchique) qui définit les distributions de ces valeurs attendues.

Dans Luo et al. [17], les effets de marquage sont supposés être supprimés par des méthodes de normalisation telles que la normalisation quantile. Supposons qu'il y ait S (𢙒) échantillons biologiques étudiés dans K (𢙒) expériences. Étant donné que plusieurs balises isobares peuvent étiqueter le même échantillon dans une expérience, laissez Ls ≥ 1 désigne le nombre de balises étiquetant le s-ième échantillon. Puis ∑s Ls = M est le nombre de balises isobares utilisées dans une expérience, qui est de 4 lorsque nous utilisons des réactifs isobares 4-plex et 8 dans la version 8-plex. Supposons qu'il y ait je protéines dans l'échantillon et Jje peptides pour le jeème protéine. Pour le jee étiquette de la se échantillon dans le kème expérience, laissez ouikijsln désigne la valeur transformée logarithmique de l'intensité observée mesurée pour le je peptide de la jeème protéine de la mème spectre. Noter que j devrait être désigné de manière plus appropriée par j(je) pour indiquer explicitement que les peptides sont imbriqués dans des protéines, et je doit être noté comme je(s) pour indiquer le jee étiquette étiquetée du se échantillon. Pour simplifier la notation, nous omettons les parenthèses. L'intensité mesurée d'un peptide dépend du niveau d'expression de la protéine et de l'effet du peptide. Laisser Xkisl désigne le niveau d'expression transformé en log du jeème protéine de la se échantillon avec le jee étiquette d'étiquetage dans le kème expérience. Laisser zkij désignent l'effet du peptide transformé en log pour le je peptide de la jeème protéine dans le kème expérience. Luo et al. [17] ont considéré un modèle additif pour ouikijsln (k = 1, …, K je = 1, …, je j = 1, …, Jje s = 1, …, S je = 1, …, Ls m = 1, …, Nkijsl):

ce qui correspond à un modèle multiplicatif à l'échelle d'origine. Dans (3), εkijsln est supposée être indépendamment distribuée normalement avec une moyenne 0 et une variance σ ε 2 : ε k i j s l n

3.1.1 Mécanisme de données manquantes

Le modèle statistique de manque de peptides dans [17] a été motivé par l'étude sur l'ensemble de données obtenu à partir de l'étude des rôles des cavéoles pour la fonction cardiovasculaire postnatale. Dans cette recherche, trois expériences ont été menées où les profils protéiques de deux souris de type sauvage et de deux souris knock-out Cav-1 ont été analysés par iTRAQ avec quatre balises isobares dans chaque expérience. Luo et al. [17] ont étudié la proportion de peptides observés dans une expérience mais manquants dans une autre expérience, et ont trouvé qu'il y avait une corrélation négative entre la probabilité manquante et l'intensité du peptide. En d'autres termes, les peptides moins abondants sont plus susceptibles de manquer car ils sont plus difficiles à détecter en raison de l'acquisition dépendante des données du processus d'analyse. Observant qu'il y avait une relation linéaire approximative entre la probabilité de manque de peptide et l'intensité observée à l'échelle logit, Luo et al. [17] ont modélisé la probabilité manquante à l'aide d'un modèle de régression logistique simple :

jekijsln = 1 indique que le je peptide de la jee protéine est mesurée dans le kème expérience, le jee réplique de la se échantillon et le mème spectre. La formule (4) implique que le logit de la probabilité d'absence de peptide dépend linéairement de son intensité. Il est prévu que b > 0 car les peptides avec des intensités plus faibles sont plus susceptibles de manquer.

3.1.2 Prieurs

Le cadre hiérarchique bayésien dans [17] prend en compte les variabilités entre les expériences et les échantillons, et suppose que Xkisl et zkij sont normalement distribués indépendamment dans différentes expériences, c'est-à-dire :

Xîle et zje désignent les effets des protéines et des peptides en moyenne sur plusieurs expériences, respectivement. Les niveaux d'expression des protéines dans différentes répliques (marquées avec des étiquettes différentes) du même échantillon sont également supposés être normalement distribués :

Xest désigne le niveau d'expression de la jeème protéine dans le se échantillon. Les hypothèses (5)–(7) conduisent à une forme équivalente de (3) :

N ( 0 , σ x 2 ) et e k i j z

N ( 0 , σ z 2 ) désigne les effets aléatoires à travers les expériences, et e i s l t

N ( 0 , σ δ 2 ) désigne la variation entre plusieurs répliques du même échantillon. Lorsqu'un échantillon est étiqueté avec une étiquette isobare unique dans une expérience, il n'y a pas de composante de variation répliquée dans un échantillon. La formule (8) est un modèle à effets mixtes. Pour assurer l'identifiabilité du modèle, la restriction Xje1 = 0 est ajouté. Puis Xest désigne le niveau d'expression de la jeème protéine dans le se échantillon par rapport au premier échantillon.

Le deuxième niveau de priors sont des distributions normales pour Xest et zje:

Le modèle hiérarchique est terminé en supposant des distributions gamma inverses comme a priori pour les hyperparamètres de variance : σ x − 2

Gamma ( γ 7 , γ 8 ) , où γ1 et γ2 désignent les paramètres de forme et d'échelle d'une distribution gamma, respectivement, et en supposant une

N(0, ν 2 ). Les distributions postérieures des paramètres pertinents sont simulées par des simulations MCMC et les protéines différentiellement exprimées sont identifiées en analysant la distribution postérieure de Xest.

3.2 Comparaison avec l'analyse ANOVA

La différence la plus importante entre ce modèle bayésien dans [17] et le modèle ANOVA proposé par Hill et al. [7] et Oberg et al. [19] est que [17] a clairement modélisé l'absence non ignorable dans les données iTRAQ. Oberg et al. [19] ont fait remarquer à la fin de leur article que l'utilisation d'un mécanisme de censure pour s'adapter au modèle serait une prochaine étape naturelle. Au lieu de censurer les données à une valeur seuil inconnue, [17] a modélisé une probabilité plus élevée d'absence de peptide pour des intensités de peptide plus faibles. Ces deux méthodes diffèrent également en termes de variations incluses dans le modèle. L'effet expérimental et l'effet réplicatif (lorsque plusieurs étiquettes marquent un échantillon) sont considérés comme des constantes pour toutes les protéines dans le modèle ANOVA. En revanche, [17] les a modélisés comme des effets aléatoires spécifiques aux peptides et (ou) aux protéines. De plus, l'analyse ANOVA implique des effets supplémentaires tels que l'effet de marquage et l'interaction entre le marquage et l'effet expérimental gj(je),s, qui ne sont pas modélisés dans [17]. L'inclusion de l'effet de marquage est déterminée par la conception de l'expérience. Lorsque des étiquettes identiques sont utilisées pour marquer les mêmes échantillons dans plusieurs expériences, l'effet de marquage n'est pas identifiable car il est confondu avec l'effet d'échantillonnage. Il est utile d'inclure l'effet d'étiquetage uniquement lorsque différentes balises sont utilisées pour étiqueter les mêmes échantillons dans plusieurs expériences. Pour l'interaction entre le marquage et l'effet expérimental gj(je),s, bien qu'il soit théoriquement approprié de l'avoir dans le modèle, il existe une grande incertitude dans l'estimation de gj(je),s en raison du petit nombre de réplicats (ou pas de réplicats) pour chaque échantillon.

L'hypothèse commune à la fois dans la méthode bayésienne et dans l'analyse ANOVA est que toutes les observations basées sur les peptides reflètent avec précision les protéines intactes. Nous ignorons la possibilité de gènes homologues résultant en deux ou plusieurs protéines qui partagent des peptides identiques et non identiques ainsi que la possibilité de modifications post-transcriptionnelles. Bien que (1) inclue l'interaction entre les effets peptidiques et le traitement (gj(je),s), il est supprimé dans l'analyse de [19]. Ce terme n'est pas non plus inclus dans [17]. Ainsi, [17] et [19] supposent que certaines protéines auront des expressions différentielles entre les échantillons sous différents traitements, mais que tout changement dans l'expression de la protéine affectera tous les peptides de cette protéine de la même manière.

3.3 Manque non aléatoire dans les données de spectrométrie de masse

Ciblant les données de spectrométrie de masse, le modèle (proposé par Wang et al. [31]) décrit dans cette sous-section n'est pas adapté aux données iTRAQ. Mais étant donné que les données iTRAQ sont obtenues en exécutant les peptides isolés via MS/MS, ce modèle de probabilité offre un moyen alternatif d'étudier les lacunes dans iTRAQ. Wang et al. [31] ont proposé d'abord d'éliminer les sources de variation systématique entre les profils de SEP via une normalisation globale, puis d'étudier le manque dépendant de l'intensité et d'imputer les intensités peptidiques manquées.

3.3.1 Normalisation globale

Dans leur normalisation globale, [31] a supposé que les intensités des échantillons sont toutes liées par un facteur constant qui doit être choisi. Afin d'éviter le biais possible dû à l'absence non aléatoire dans les données de spectrométrie de masse, Wang et al. proposé d'utiliser le haut L statistiques ordonnées (par exemple, médianes) des intensités peptidiques dans chaque échantillon pour la remise à l'échelle, où L est un paramètre spécifié par l'utilisateur. Laisser K (K > 2) soit le nombre de profils MS. Notons les intensités observées de la k-ième profil comme Y ( k ) = ( y 1 ( k ) , y 2 ( k ) , … , y n k ( k ) ) , où mk est le nombre de peptides identifiés dans le k-ème profil. Pour un nombre donné L ( L < min ( < n k >k = 1 K ) ) , la médiane de la population est définie comme

et le coefficient d'échelle pour la normalisation de la k-ème profil est

3.3.2 Données manquantes non aléatoires et imputation

Pour tenir compte de l'absence non aléatoire, Wang et al. [31] ont proposé d'imputer l'intensité peptidique manquée dans un échantillon avec le rapport de l'intensité observée dans un autre échantillon divisé par un coefficient d'échelle estimé à partir des intensités d'autres peptides observées dans les deux échantillons. Supposons que le niveau minimum détectable de l'instrument soit . Soit x j ( k ) la vraie abondance du j-ème peptide dans le k-ième profil correspondant à la valeur observée y j ( k ) . Un peptide peut exister ou non dans un profil. Soit z j ( k ) une variable latente indiquant la présence du j-ème peptide dans le k-ième profil, avec z j ( k ) = 1 si le j-ème peptide existe dans le k-ième profil, et z j ( k ) = 0 sinon. Alors x j ( k ) = 0 si z j ( k ) = 0 . Soit f j ( k ) la fonction de densité de x i ( k ) lorsque z i ( k ) = 1 , on a

I 0 ( · ) P ( z j ( k ) = 0 ) + f j ( k ) ( · ) P ( z j ( k ) = 1 ) ,

je0(·) indique une masse ponctuelle à zéro. Avec (12), Wang et al. [31] ont supposé que la véritable abondance d'un peptide a une distribution de mélange. Avec probabilité P ( z j ( k ) = 0 ) , le peptide n'existe pas dans le k-ième profil, et l'abondance est nulle. Avec une probabilité P ( z j ( k ) = 1 ) , le peptide existe et la distribution de l'abondance est décrite par f j ( k ) .

La valeur manquée du niveau d'intensité de la j-ième peptide présent dans le k-ème profil est imputé par la valeur attendue E ( x j ( k ) | y j ( k ) = 0 ) , qui est calculée comme suit

où la première égalité est due au fait que E ( x j ( k ) | y j ( k ) = 0 , z j ( k ) = 0 ) = 0 , et la seconde égalité est due au fait que lorsque le j-ème peptide existe dans le k-ième profil ( z j ( k ) = 1 ) , aucune détection de signal ( y j ( k ) = 0 ) équivaut à une faible intensité ( x j ( k ) < d ) . Le terme E ( x j ( k ) | x j ( k ) < d , z j ( k ) = 1 ) dans (13) peut être déterminé lorsque f j ( k ) et sont spécifiés, et P d ( z j ( k ) = 1 | y j ( k ) = 0 ) , la probabilité que le j-ème peptide existe dans le k-ème profil lorsqu'aucun signal n'est détecté, peut être calculé comme

où la troisième égalité est vérifiée car P d ( yj ( k ) = 0 | zj ( k ) = 1 ) = P d ( xj ( k ) < d | zj ( k ) = 1 ) et P d ( yj ( k ) = 0 | zj ( k ) = 0 ) = 1 . Le terme P d ( x j ( k ) < d | z j ( k ) = 1 ) dans (14) peut être obtenu à partir de la fonction de densité f j ( k ) lorsque celle-ci est spécifiée, et

Ainsi, lorsque la densité conditionnelle f j ( k ) et sont spécifiés, l'intensité peptidique manquée peut être imputée avec (13)–(15).

Le paramètre de niveau minimum détectable par l'instrument est estimé par le niveau de bruit de fond dans tous les profils bruts MS du même instrument, noté d ̂ . Ensuite, le niveau détectable du k-ème profil est d ̃ (k) = d ̂ /λ (k) , où λ (k) est le coefficient d'échelle de normalisation dans (11). Wang et al. [31] supposent que

indépendamment pour k = 1, 2, …, K. Cela équivaut à supposer que la fonction de densité de x j ( k ) lorsque z j ( k ) = 1 , f j ( k ) , est N(λ (k) μj, (λ (k) σj) 2 ). Dans le cas particulier où σj ≪ | d ̃ (k) − μj| et des réplications biologiques sont disponibles, Wang et al. [31] ont fourni des estimateurs pour la probabilité manquante P d ( z j ( k ) = 1 | y j ( k ) = 0 ) et la valeur imputée E ( X j ( k ) | y j ( k ) = 0 ) comme ci-dessous :

Les données imputées sont utilisées pour une analyse plus approfondie telle que l'estimation, le regroupement des protéines et l'identification différentielle des protéines.

Le modèle proposé par Wang et al. [31] diffère du modèle bayésien proposé par Luo et al. [17] des trois manières suivantes. Premièrement, dans [31], les intensités inférieures à un certain niveau sont censurées et le paramètre de censure est estimé sur la base des niveaux de bruit de fond dans [17], un modèle de régression logistique est construit pour relier la probabilité manquante à l'intensité réelle potentielle. Avec l'observation que les peptides moins abondants sont plus susceptibles d'être manquants, le mécanisme de manque basé sur un modèle dans [17] qui lie la probabilité de manquer avec l'intensité du peptide est plus raisonnable que le mécanisme de censure dans [31]. Deuxièmement, [31] effectue une imputation à valeur unique et impute les intensités manquées avec les valeurs attendues, tandis que [17] effectue une imputation multiple et simule les distributions postérieures des valeurs manquées. Troisièmement, [31] n'est pas adapté à l'analyse iTRAQ et les sources de variations doivent être supprimées lors de l'application de l'idée de [31] aux données iTRAQ. La force de [31] réside dans la charge de calcul réduite. Lorsque la densité f j ( k ) est spécifiée, l'intensité peptidique manquée peut être facilement imputée avec la valeur attendue obtenue à partir de la formule (13).


2. Protéomique

Avant de résumer les différentes stratégies protéomiques (Figure 1), il convient de souligner quelques points 4 :

Aucune technologie protéomique ne peut actuellement résoudre toute la complexité du protéome des mammifères.

Quelle que soit la technique protéomique, il existe un biais vers des protéines plus abondantes.

En général, il existe un compromis entre le nombre de protéines pouvant être identifiées et la précision avec laquelle elles peuvent être quantifiées.

Inévitablement, l'information est perdue par la propagation d'informations peptidiques quantitatives aux changements de protéines.

Comparaison des méthodes de protéomique

Abréviation. Nom complet et explication. Avantages. Désavantages .
DIGE Différence électrophorèse sur gel Quantification au niveau des protéines Faible sensibilité
Visualisation des modifications post-traductionnelles et des isoformes de protéines Seules les protéines différentiellement exprimées ont tendance à être identifiées par MS/MS
Bonne précision quantitative Les protéines avec un pI ou un Mw très élevé ou faible ne sont pas résolues sur le gel
Gel-LC-MS/MS Séparation par SDS-PAGE avant analyse LC-MS/MS Facilité d'utilisation Le préfractionnement augmente les exigences de temps pour l'analyse MS/MS
Le préfractionnement avant l'analyse LC-MS/MS augmente la sensibilité Mauvaise précision quantitative dans les mélanges complexes sans marquage peptidique
« Echelle » comme indication de la dégradation protéolytique Les protéines avec un Mw très élevé ou faible ne sont pas résolues sur le gel
SILAC Marquage des isotopes stables avec des acides aminés en culture cellulaire Variation expérimentale minimale Quantification au niveau peptidique
Excellente précision quantitative Ne convient pas aux cellules qui ne prolifèrent pas en culture, c'est-à-dire les cardiomyocytes
Facilité d'utilisation pour les cellules en culture qui prolifèrent et tolèrent les suppléments de sérum filtré L'étiquetage métabolique des animaux coûte cher
iTRAQ, balises TMT Marquage isotopique des peptides Bonne précision quantitative Quantification au niveau peptidique
Peut être utilisé avec des tissus ainsi que des cultures cellulaires Les spectres MS/MS mixtes contiendront des ions rapporteurs de différents peptides
Abréviation. Nom complet et explication. Avantages. Désavantages .
DIGE Différence électrophorèse sur gel Quantification au niveau des protéines Faible sensibilité
Visualisation des modifications post-traductionnelles et des isoformes de protéines Seules les protéines différentiellement exprimées ont tendance à être identifiées par MS/MS
Bonne précision quantitative Les protéines avec un pI ou un Mw très élevé ou faible ne sont pas résolues sur le gel
Gel-LC-MS/MS Séparation par SDS-PAGE avant analyse LC-MS/MS Facilité d'utilisation Le préfractionnement augmente les exigences de temps pour l'analyse MS/MS
Le préfractionnement avant l'analyse LC-MS/MS augmente la sensibilité Mauvaise précision quantitative dans les mélanges complexes sans marquage peptidique
« Echelle » comme indication de la dégradation protéolytique Les protéines avec un Mw très élevé ou faible ne sont pas résolues sur le gel
SILAC Marquage des isotopes stables avec des acides aminés en culture cellulaire Variation expérimentale minimale Quantification au niveau peptidique
Excellente précision quantitative Ne convient pas aux cellules qui ne prolifèrent pas en culture, c'est-à-dire les cardiomyocytes
Facilité d'utilisation pour les cellules en culture qui prolifèrent et tolèrent les suppléments de sérum filtré L'étiquetage métabolique des animaux coûte cher
iTRAQ, balises TMT Marquage isotopique des peptides Bonne précision quantitative Quantification au niveau peptidique
Peut être utilisé avec des tissus ainsi que des cultures cellulaires Les spectres MS/MS mixtes contiendront des ions rapporteurs de différents peptides

Comparaison des méthodes de protéomique

Abréviation. Nom complet et explication. Avantages. Désavantages .
DIGE Différence électrophorèse sur gel Quantification au niveau des protéines Faible sensibilité
Visualisation des modifications post-traductionnelles et des isoformes de protéines Seules les protéines différentiellement exprimées ont tendance à être identifiées par MS/MS
Bonne précision quantitative Les protéines avec un pI ou un Mw très élevé ou faible ne sont pas résolues sur le gel
Gel-LC-MS/MS Séparation par SDS-PAGE avant analyse LC-MS/MS Facilité d'utilisation Le préfractionnement augmente les exigences de temps pour l'analyse MS/MS
Le préfractionnement avant l'analyse LC-MS/MS augmente la sensibilité Mauvaise précision quantitative dans les mélanges complexes sans marquage peptidique
« Echelle » comme indication de la dégradation protéolytique Les protéines avec un Mw très élevé ou faible ne sont pas résolues sur le gel
SILAC Marquage des isotopes stables avec des acides aminés en culture cellulaire Variation expérimentale minimale Quantification au niveau peptidique
Excellente précision quantitative Ne convient pas aux cellules qui ne prolifèrent pas en culture, c'est-à-dire les cardiomyocytes
Facilité d'utilisation pour les cellules en culture qui prolifèrent et tolèrent les suppléments de sérum filtré L'étiquetage métabolique des animaux coûte cher
iTRAQ, balises TMT Marquage isotopique des peptides Bonne précision quantitative Quantification au niveau peptidique
Peut être utilisé avec des tissus ainsi que des cultures cellulaires Les spectres MS/MS mixtes contiendront des ions rapporteurs de différents peptides
Abréviation. Nom complet et explication. Avantages. Désavantages .
DIGE Différence électrophorèse sur gel Quantification au niveau des protéines Faible sensibilité
Visualisation des modifications post-traductionnelles et des isoformes de protéines Seules les protéines différentiellement exprimées ont tendance à être identifiées par MS/MS
Bonne précision quantitative Les protéines avec un pI ou un Mw très élevé ou faible ne sont pas résolues sur le gel
Gel-LC-MS/MS Séparation par SDS-PAGE avant analyse LC-MS/MS Facilité d'utilisation Le préfractionnement augmente les exigences de temps pour l'analyse MS/MS
Le préfractionnement avant l'analyse LC-MS/MS augmente la sensibilité Mauvaise précision quantitative dans les mélanges complexes sans marquage peptidique
« Echelle » comme indication de la dégradation protéolytique Les protéines avec un Mw très élevé ou faible ne sont pas résolues sur le gel
SILAC Marquage des isotopes stables avec des acides aminés en culture cellulaire Variation expérimentale minimale Quantification au niveau peptidique
Excellente précision quantitative Ne convient pas aux cellules qui ne prolifèrent pas en culture, c'est-à-dire les cardiomyocytes
Facilité d'utilisation pour les cellules en culture qui prolifèrent et tolèrent les suppléments de sérum filtré L'étiquetage métabolique des animaux coûte cher
iTRAQ, balises TMT Marquage isotopique des peptides Bonne précision quantitative Quantification au niveau peptidique
Peut être utilisé avec des tissus ainsi que des cultures cellulaires Les spectres MS/MS mixtes contiendront des ions rapporteurs de différents peptides

Approches protéomiques. Les extraits de protéines peuvent être fractionnés au niveau des protéines avant la digestion ou après digestion des protéines au niveau des peptides. Dans DIGE, les extraits protéiques sont marqués avec différents colorants fluorescents avant d'être séparés par le 2-DE. Pour le SILAC, les cellules sont marquées métaboliquement en culture par incorporation d'acides aminés lourds ou légers. Alternativement, le marquage est effectué au niveau du peptide, en utilisant des balises isobares iTRAQ ou TMT. Les peptides sont ensuite analysés par MS/MS. 2-DE, électrophorèse sur gel bidimensionnelle DIGE, électrophorèse sur gel différentiel 1-DE, électrophorèse sur gel unidimensionnelle SILAC, marquage isotopique stable avec des acides aminés en culture cellulaire AA, acide aminé iTRAQ, étiquette isobare pour quantification relative et absolue TMT, tandem étiquette de masse.

Approches protéomiques. Les extraits de protéines peuvent être fractionnés au niveau des protéines avant la digestion ou après digestion des protéines au niveau des peptides. Dans DIGE, les extraits protéiques sont marqués avec différents colorants fluorescents avant d'être séparés par le 2-DE. Pour le SILAC, les cellules sont marquées métaboliquement en culture par incorporation d'acides aminés lourds ou légers. Alternativement, le marquage est effectué au niveau du peptide, en utilisant des balises isobares iTRAQ ou TMT. Les peptides sont ensuite analysés par MS/MS. 2-DE, électrophorèse sur gel bidimensionnelle DIGE, électrophorèse sur gel différentiel 1-DE, électrophorèse sur gel unidimensionnelle SILAC, marquage isotopique stable avec des acides aminés en culture cellulaire AA, acide aminé iTRAQ, marqueur isobare pour quantification relative et absolue TMT, tandem étiquette de masse.

2.1 Électrophorèse sur gel bidimensionnelle

L'électrophorèse sur gel bidimensionnelle (2-DE) permet la séparation des protéines en fonction de leur point isoélectrique (pI) et de leur poids moléculaire (Mw). 5 La première dimension consiste à séparer les protéines selon leur pI. Un mélange de protéines est chargé sur une bande avec un gradient de pH immobilisé. Une fois qu'un champ électrique est appliqué, les protéines migrent vers leur pi, où elles deviennent zwitterioniques, c'est-à-dire qu'elles perdent leur charge nette et arrêtent de migrer (focalisation isoélectrique). Une fois la focalisation isoélectrique terminée, les bandes de gradient de pH immobilisées sont transférées sur des gels grand format pour séparation dans la deuxième dimension, où les protéines sont résolues en fonction de leur masse moléculaire par SDS-PAGE.

Contrairement au SDS-PAGE, les gels 2-DE produisent des cartes complexes de protéomes qui sont visualisées sous forme de « spots » de protéines discrets. Étant donné que pI et Mw sont des propriétés indépendantes, les gels 2-DE peuvent résoudre beaucoup plus de protéines que SDS-PAGE. Il est important de noter que la même protéine peut être présente à plusieurs endroits sur un gel. Des décalages de pI ou de Mw indiquent la présence de modifications post-traductionnelles, d'une dégradation des protéines ou d'isoformes de protéines. 6, 7 Les caractéristiques des protéines sont visualisées par coloration de Coomassie ou à l'argent, et l'expression différentielle entre les échantillons est déterminée à l'aide d'une quantification densitométrique relative. Cependant, la variabilité de gel à gel peut limiter la précision quantitative et interdire la détection de différences mineures d'expression.

Une technique 2-DE plus sophistiquée est l'électrophorèse sur gel différentiel (DIGE, Figure 2A). 8 DIGE implique le marquage fluorescent de mélanges de protéines avec des colorants Cy afin de déterminer les différences relatives dans l'expression des protéines. Un standard interne comprenant les échantillons expérimentaux regroupés est inclus, qui est représentatif de tous les échantillons. La sensibilité de détection du DIGE est comparable à la sensibilité de la coloration à l'argent 9 et les colorants sont appariés pour pI et Mw. Le principal avantage du DIGE par rapport aux gels 2-DE conventionnels est que les échantillons peuvent être multiplexés sur le même gel, réduisant ainsi le nombre de gels nécessaires et limitant la variation expérimentale. DIGE utilisé avec un étalon interne quantifie de manière fiable des différences aussi faibles que 10 % dans l'expression des protéines. 10 Les gels sont scannés à l'aide d'un scanner à fluorescence, qui mesure spécifiquement la longueur d'onde d'émission de chaque colorant Cy. Les progiciels commerciaux correspondent aux caractéristiques des protéines et calculent l'expression différentielle à partir des images de gel numérisées. La normalisation des niveaux de protéines à travers les gels est effectuée en comparant les ratios de protéines avec l'étalon interne qui est co-détecté sur chaque gel.

Protéomique à base de gel. Séparation du protéome cardiaque murin par DIGE sur différents gradients de pH immobilisés : pH 3-10 NL (UNE) et pH 4–7 (B). La case blanche met en évidence la meilleure résolution de la même zone sur le gradient de pH étroit. (C) Distribution Mw de six glycoprotéines extracellulaires par SDS-PAGE. L'« échelle » caractéristique des anévrismes de l'aorte abdominale (AAA) par rapport au tissu aortique normal (CON) indique une protéolyse. Les différences dans les comptages spectraux sont codées par couleur (rouge haut, bleu bas). () L'incubation de tissus aortiques sains avec des métalloprotéinases matricielles-12 (MMP-12) a induit un schéma de fragmentation de la fibronectine similaire à celui observé dans les AAA. En comparaison, la dégradation par les métalloprotéinases matricielles-9 (MMP-9) était moins prononcée (reproduit avec la permission de Didangelos et al. 15 ).

Protéomique à base de gel. Séparation du protéome cardiaque murin par DIGE sur différents gradients de pH immobilisés : pH 3-10 NL (UNE) et pH 4–7 (B). La case blanche met en évidence la meilleure résolution de la même zone sur le gradient de pH étroit. (C) Distribution Mw de six glycoprotéines extracellulaires par SDS-PAGE. L'« échelle » caractéristique des anévrismes de l'aorte abdominale (AAA) par rapport au tissu aortique normal (CON) indique une protéolyse. Les différences dans les comptages spectraux sont codées par couleur (rouge haut, bleu bas). () L'incubation de tissus aortiques sains avec des métalloprotéinases matricielles-12 (MMP-12) a induit un schéma de fragmentation de la fibronectine similaire à celui observé dans les AAA. En comparaison, la dégradation par les métalloprotéinases matricielles-9 (MMP-9) était moins prononcée (reproduit avec la permission de Didangelos et al. 15 ).

Contrairement à d'autres techniques protéomiques, la quantification par 2-DE est réalisée au niveau protéique, pas au niveau peptidique, et la quantification est découplée de l'identification par spectrométrie de masse (MS). La coloration à l'argent peut être utilisée pour visualiser les caractéristiques des protéines sur un gel afin de faciliter l'excision des taches pertinentes pour la SEP. Alternativement, les taches sont directement prélevées sur des gels fluorescents à l'aide d'un sélecteur de taches robotique. Les taches sont ensuite soumises à une digestion trypsique en gel avant l'identification des protéines.

L'une des principales mises en garde de l'approche 2-DE est que les protéines riches en abondance masquent les protéines moins abondantes. Ceci peut être partiellement résolu en utilisant des gradients avec une plage de pH étroite (Figure 2B). Cependant, la séparation dans la première dimension, en particulier la transition de la première à la deuxième dimension n'est pas sans perte, et les protéines très grandes, petites et hydrophobes restent difficiles à résoudre.

2.2 Spectrométrie de masse en tandem par chromatographie liquide

La spectrométrie de masse en tandem par chromatographie liquide (LC-MS/MS) est l'étalon-or actuel en protéomique. Le principe de base du MS consiste à mesurer le rapport masse/charge (m/z) d'un peptide ionisé et de ses produits de fragmentation. Les protéines sont initialement digérées par des enzymes telles que la trypsine pour produire des fragments peptidiques qui sont plus faciles à résoudre par LC en phase inverse et à ioniser par électrospray MS. 11 En fonction de leur hydrophobie, les peptides éluent à différents moments de la colonne en phase inverse (temps de rétention). Un flux de travail typique utilisant la LC-MS/MS implique un balayage régulier pour enregistrer les masses et les intensités des peptides éluants. Les ions précurseurs les plus abondants éluant de la colonne sont sélectionnés pour la fragmentation (MS/MS). Les informations sur la séquence d'acides aminés obtenues à partir des données MS/MS permettent l'identification de la protéine. Les paramètres peptidiques, tels que les comptages spectraux, les intensités ioniques et la surface de pic chromatographique, peuvent fournir un indice quantitatif de l'abondance des protéines (quantification sans marqueur). 12 La polyvalence de la technologie de spectrométrie de masse a engendré de nombreux spectromètres de masse différents, les analyseurs de masse MALDI-TOF-TOF, Q-TOF et Orbitrap 13 étant parmi les plus courants actuellement utilisés pour la protéomique de découverte.

2.3 Analyse Gel-LC-MS/MS

Le pré-fractionnement par SDS-PAGE avant MS s'est avéré utile dans la caractérisation d'échantillons qui ne se prêtent pas à la séparation par 2-DE. Cela aide également à surmonter la principale cause de biais contre les protéines à faible abondance - le sous-échantillonnage stochastique des peptides à faible abondance qui survient parce que les peptides à forte abondance dominent le cycle d'utilisation du spectromètre de masse. Pour l'analyse gel-LC-MS/MS, les protéines sont séparées par SDS-PAGE, la totalité de la piste de gel est divisée en une série de bandes, les bandes sont excisées sans laisser de morceaux de gel vides, digérées avec de la trypsine et LC-MS/ Une analyse MS est effectuée sur chacune des bandes. 14, 15 Étant donné que les bandes de gel ont tendance à être des mélanges de protéines, la séparation LC est essentielle pour l'identification et la quantification des protéines, c'est-à-dire par comptage spectral. 16 Le comptage spectral est devenu une stratégie populaire pour quantifier l'abondance relative des protéines, mais il est moins fiable pour les mélanges complexes. En général, plus une protéine est abondante, plus elle est susceptible d'être détectée par MS/MS. Les comptages spectraux sont dérivés du nombre de spectres MS/MS correspondant à une protéine particulière.

Dans l'approche gel-LC-MS/MS, les informations sur la Mw native d'une protéine sont préservées. Si la dégradation des protéines s'est produite avant la digestion tryptique, les peptides sont détectés par MS dans des segments de gel inférieurs à la Mw attendue des protéines natives (Figure 2C). Ainsi, il est essentiel de vérifier si les protéines exprimées de manière différentielle sont confinées aux mêmes bandes de gel. Sinon, une protéine dégradée peut apparaître régulée à la hausse en raison de son « échelonnement » caractéristique sur la SDS-PAGE (Figure 2D). Alternativement, les fragments de protéines peuvent être trop petits et échapper à la détection car ils ont migré avant le front du tampon. D'autre part, les informations sur les produits de dégradation protéolytique sont importantes et perdues dans la protéomique conventionnelle analysant les peptides tryptiques sans séparation préalable au niveau des protéines.

2.4 Protéomique du fusil de chasse

Outre les approches basées sur le gel, il existe des méthodes sans gel pour quantifier les différences d'expression des protéines en fonction de l'abondance des peptides. Bien que ces méthodes protéomiques au fusil de chasse puissent creuser plus profondément dans le protéome, des problèmes surviennent avec la quantification si les échantillons sont trop complexes. La SM n'est pas intrinsèquement quantitative en raison des différences d'efficacité d'ionisation. Les ions les plus abondants attireront le plus de charges pendant l'ionisation par électrospray, ce qui rendra moins probable l'ionisation des peptides de faible niveau. Pour éviter les changements de protéines faussement positifs dus à la co-élution de peptides très abondants, des techniques de marquage doivent être utilisées pour une quantification fiable. Les méthodes de marquage populaires incluent le marquage isobare pour la quantification relative et absolue (iTRAQ), les marqueurs de masse en tandem (TMT) et le marquage des isotopes stables par les acides aminés en culture cellulaire (SILAC). 17 iTRAQ est actuellement disponible sous forme de quadruple et de huit-plex, permettant la quantification relative d'un maximum de huit échantillons, tandis que l'étiquetage du TMT et du SILAC peut être utilisé avec six et trois échantillons, respectivement. 18 Cependant, les peptides ne sont qu'une mesure de substitution et ne sont pas toujours fiables pour la quantification des protéines, c'est-à-dire s'ils sont sujets à des modifications post-traductionnelles ou à une protéolyse.

2.4.1 Marquage des isotopes stables par les acides aminés en culture cellulaire

SILAC utilise des marqueurs isotopiques non radioactifs pour marquer les protéines avec des isotopes légers (par exemple 12 C) et lourds (par exemple 13 C). 18 Les échantillons peuvent être multiplexés et analysés au cours du même cycle MS, minimisant ainsi les erreurs expérimentales. 19 Les paires SILAC co-élue pendant la chromatographie mais les peptides correspondants de l'isoforme lourde et légère apparaissent avec un décalage de masse caractéristique. La quantité relative de chaque protéine peut être calculée par les différences dans les intensités maximales des peptides marqués au SILAC. L'utilisation de SILAC pour quantifier les niveaux différentiels de protéines va au-delà de l'utilisation de cellules en culture. Des souris marquées au SILAC ont été décrites avec un marquage presque complet de toutes les protéines, bien que le régime SILAC soit coûteux. 20 L'étiquetage métabolique présente également des informations sur la synthèse et l'approvisionnement des acides aminés, l'assemblage des protéines et la cinétique de renouvellement.

2.4.2 Marquage isobare pour la quantification relative et absolue/marqueurs de masse en tandem

Dans les cas où du tissu humain est utilisé, iTRAQ ou TMT est une option pour le multiplexage d'échantillons cliniques pour des études d'expression différentielle par LC-MS/MS, 21 mais ces techniques ne sont pas sans avertissements. 22 (i) Un inconvénient de l'iTRAQ et du système TMT par rapport au SILAC est le fait que le marquage est effectué au niveau des peptides et se produit tard dans le processus expérimental.Avant le marquage, les protéines sont d'abord extraites des cellules ou des tissus et digérées en peptides. C'est une source potentielle de variation. (ii) Contrairement à SILAC, la quantification est effectuée au niveau MS/MS, et non au niveau MS. Les peptides de différents échantillons conservent leur m/z ratios après marquage (MS). Uniquement lors de la fragmentation (MS/MS), les étiquettes de masse isobare libèrent leurs différents ions rapporteurs avec une seule substitution isotopique par étiquette et fournissent des informations quantitatives pour chaque échantillon individuel. Un problème couramment observé dans les expériences iTRAQ est qu'un arrière-plan complexe peut conduire à une sous-estimation des changements de pli de protéine. Au cours de la sélection des ions précurseurs, plus d'un peptide peut se trouver dans la fenêtre de masse sélectionnée pour la fragmentation. Dans de tels spectres MS/MS mixtes, les ions rapporteurs provenant de peptides de différentes protéines sont combinés à tort pour la quantification.

2.5 Identification des protéines

Bien que des bases de données précises et accessibles soient nécessaires pour chacun des domaines « -omiques », la protéomique est peut-être la plus dépendante de ces ressources. Les technologies d'identification et de quantification des protéines reposent sur des bases de données complètes pour l'identification des protéines et la quantification des peptides. Ces bases de données ne relèvent pas directement de la biologie des systèmes, mais elles fournissent une base pour ces dernières analyses, car la conservation et la maintenance de ces bases de données sont vitales pour l'identification et la quantification correctes des protéines examinées.

Pour les bases de données fonctionnelles et basées sur des séquences, UniProt est l'une des plus complètes. UniProt se compose de plusieurs classifications : Swiss-Prot et TrEMBL contiennent des informations de séquence et fonctionnelles sur les protéines, UniRef et UniParc contiennent des enregistrements de séquences et de séquences archivées et, lorsqu'elles sont disponibles, des données de support telles que des références bibliographiques et des bases de données référencées. 23 Des programmes tels que Mascot, SEQUEST ou X!Tandem recherchent des séquences de protéines FASTA obtenues à partir de bases de données publiques telles que UniProt. Après avoir effectué un 'in silico fragmentation» avec une spécificité enzymatique connue, les listes de masse de pics avec les intensités (les données expérimentales) sont recherchées par rapport à la in silico-base de données fragmentée. Les masses des ions parents sont balayées par rapport aux masses dérivées des séquences de la base de données. S'il y a une correspondance dans une certaine tolérance de masse, les spectres MS/MS observés sont ensuite comparés à la série d'ions théorique dérivée de la séquence. Bien qu'ils ne soient pas explicitement traités ici, l'examen et les commentaires de Noble et MacCoss 24 donnent un aperçu de ces méthodologies et techniques. Les algorithmes de notation peuvent produire des résultats différents et le recours à des identifications de peptides uniques dans des ensembles de données à grande échelle est une cause potentielle de fausses identifications. La plupart des études protéomiques ne rapportent que des identifications avec un minimum de deux peptides uniques ou incluent les spectres MS/MS pour les identifications d'un seul peptide.


Méthodes

Matériel végétal et échantillonnage

Le cultivar de maïs chinois d'élite Denghai 661 (DH351/DH372) a été utilisé dans cette étude. La graine a été obtenue auprès de Shandong Denghai Seeds Co., Ltd. (Laizhou, Chine). Les plantes ont été cultivées pendant la saison de croissance du maïs dans la ferme expérimentale de l'Université agricole du Shandong, Taian (36°10′E, 117°04′N), Chine. Les plantes fleurissant le même jour ont été marquées et autofécondées artificiellement. Neuf épis ont été collectés à chaque stade de 3, 5, 10, 15, 20, 30, 40 et 50 DAP. Afin d'augmenter l'uniformité du matériel, des grains fertilisés de la partie médiane de chaque épi ont été échantillonnés. Pour chaque étape, trois échantillons ont été préparés en mélangeant un nombre égal de grains de trois épis, les échantillons ont été stockés immédiatement à -80 °C jusqu'à l'extraction des protéines. Le poids frais et le poids sec ont été mesurés à chaque stade de grain. Des grains de 10 à 50 DAP et de 3 à 30 DAP ont été collectés pour la détermination de la teneur totale en amidon et du nombre de cellules d'endosperme, respectivement, comme décrit précédemment [83].

Extraction de protéines

Les échantillons de grains ont été broyés en poudre fine dans de l'azote liquide à l'aide d'un mortier et d'un pilon. La poudre a été mise en suspension dans un volume de 10 fois d'acétone prérefroidi (−20 °C) contenant 10 % (v/v) d'acide trichloracétique (TCA). L'homogénat a ensuite été précipité pendant 2 h à -20 °C après un mélange minutieux. L'homogénat a ensuite été centrifugé pendant 30 min à 20 000 g à 4 °C, et le surnageant a été soigneusement retiré, le culot a été rincé trois fois avec de l'acétone froide, laissé à -20 °C pendant 30 min, puis centrifugé à 20 000 g pendant 30 min à 4°C. Les culots résultants ont été dissous dans un tampon de lyse contenant 8 M d'urée, 30 mM de HEPES, 1 mM de polyvinylpolypyrrolidone (PMSF), 2 mM d'EDTA et 10 mM de dithiothréitol (DTT) puis soniqués pendant 5 min. L'extrait protéique dissous a été centrifugé à 20 000 g pendant 30 min à 4°C, le surnageant a été récupéré et réduit avec 10 mM de DTT à 56°C pendant 1 h, puis alkylé avec 55 mM d'iodoacétamide (IAM) pendant 1 h dans l'obscurité. Le mélange a été précipité en utilisant un volume de 5 fois d'acétone froide à -20 °C pendant 3 h, suivi d'une centrifugation à 20 000 g pendant 30 minutes. Le culot résultant a été dissous dans du tampon 0,5 M de bicarbonate de triéthylammonium (TEAB) avec 0,1 % de SDS, soniqué pendant 5 min et centrifugé à 20 000 g pendant 30 minutes. Le surnageant a été utilisé pour la digestion liquide, et la concentration en protéines a été déterminée en utilisant le test de Bradford (Bio-Rad, Hercules, CA, USA) avec BSA comme standard.

Digestion en solution et étiquetage iTRAQ

Pour chaque échantillon, 3,3 µL de trypsine (1 µg/µL) (Promega, Madison, WI, USA) ont été ajoutés à 100 µg de protéines dans du tampon TEAB et les protéines ont été digérées à 37°C pendant 24 h. Une nouvelle aliquote de trypsine (1 L) a été ajoutée et l'échantillon a été à nouveau digéré pendant 12 h. Le précipité a été dissous dans 30 L de TEAB 0,5 M et mélangé avec 70 L d'isopropanol. Ensuite, les peptides digérés ont été marqués avec des réactifs iTRAQ (AB SCIEX, Framingham, MA, USA) selon les instructions du fabricant. Les échantillons de grains obtenus à partir de 3, 5, 10, 15, 20, 30, 40 et 50 DAP ont été marqués avec les réactifs iTRAQ 113, 114, 115, 116, 117, 118, 119 et 121, respectivement. Trois expériences biologiques indépendantes ont été réalisées.

SCX et LC-MS/MS

Les peptides regroupés ont été dissous dans un tampon A d'échange de cations fort (SCX) (10 mM de phosphate de potassium monobasique (KH2Bon de commande4) dans 25 % d'acétonitrile, pH 2,8). Le mélange a été ajusté à pH 3 à l'aide d'acide phosphorique, puis fractionné à l'aide d'un système de chromatographie liquide haute performance (HPLC) (Shimadzu, Kyoto, Japon) équipé d'une colonne SCX à base de silice (250 × 4,6 mm, 5 µm, 100 , Phenomenex, Torrance, Californie, États-Unis). Au total, 36 fractions ont été collectées à un débit de 1 mL/min avec le tampon B (10 mM KH2Bon de commande4 et chlorure de potassium 2 M (KCl) dans 25 % d'acétonitrile, pH 2,8) avec le gradient suivant : 0 % pendant 45 min, 0–5 % pendant 1 min, 5–30 % pendant 20 min, 30–50 % pendant 5 min et maintenu pendant 5 min, et à 50-100 % pendant 5 min, et maintenu pendant 10 min. Les fractions ont été dessalées avec un strata-X 33 m PolyRevStage SPE (Phenomenex) en suivant les instructions du fabricant et lyophilisées dans un concentrateur sous vide à vitesse centrifuge. Ensuite, 30 L d'acide formique à 0,1 % ont été ajoutés à chaque tube de fraction séchée, et 0,1 L de la solution redissoute a été déposé sur le puits cible d'une plaque Anchor-chip pour le test MALDI-TOF. Après le test MALDI-TOF (Bruker Daltonics, Allemagne), les 36 fractions ont été combinées en 16 fractions finales selon l'aire du pic.

L'analyse par spectrométrie de masse a été réalisée sur un système Dionex Ultimate 3000 Nano LC connecté à un spectromètre de masse Q-Exactive (Thermo Fisher Scientific, MA, USA). Les mélanges de peptides ont été chargés sur une colonne à phase inversée Acclaim PePmap C18 (75 m × 2 cm, 3 m, 100 Å, Thermo Scientific) et séparés avec une colonne à phase inversée C18 (75 m × 10 cm, 5 m, 300 Å , Agela Technologies) en utilisant un gradient de 5 à 80 % (v/v) d'acétonitrile dans 0,1 % d'acide formique pendant 45 min à un débit de 300 nL/min. Le solvant A était de l'acide formique à 0,1 % dans l'eau. Un balayage complet de spectrométrie de masse (MS) (350-2000 m/z) a été acquis en mode ion positif à une résolution de 70 000 (à 200 m/z), une valeur cible AGC de 3 à 6, un temps d'accumulation maximal d'ions de 50 ms, nombre de plages de balayage de 1 et exclusion dynamique de 15 s. Les informations sur les peptides et les fragments de peptides m/z ont été obtenues en utilisant les conditions suivantes : 20 fichiers de fragments ont été collectés après chaque analyse complète (analyse MS2), fragmentation plus élevée par dissociation de l'énergie de collision (HCD), une fenêtre d'isolement de 2 m/z, analyse complète à une résolution de 17 500 (à 200 m/z), des micro-balayages de 1, un temps d'accumulation d'ions maximal de 100 ms, une énergie de collision normalisée de 28 eV et un taux de sous-remplissage de 1 %.

L'analyse des données

Pour l'identification des protéines, les fichiers bruts MS ont été traités avec Proteome Discoverer 1.3 (Thermo Fisher Scientific) et recherchés avec le logiciel interne MASCOT 2.3.01 (Matrix Science, Londres, Royaume-Uni). Les spectres MS/MS acquis ont été automatiquement recherchés par rapport à un UniProt-Zeamay base de données de protéines (86 922 séquences en décembre 2014). Les paramètres de recherche étaient les suivants : la trypsine a été choisie comme enzyme avec un clivage manqué permettant des modifications fixes de la carbamidométhylation des résidus cystéine iTRAQ 8-plex modification de l'extrémité N, K et Y, Gln → Pyro-Glu de l'extrémité N et oxydation de méthionine ont été fixés en tant que modifications variables, la tolérance aux peptides a été fixée à 15 ppm et la tolérance MS/MS a été fixée à 20 mmu. Au moins un peptide unique avec un taux de fausse découverte (FDR) ≤1 % était requis pour l'identification des protéines et l'analyse des données de quantification.


Voir la vidéo: Didier Raoult dans TPMP! (Décembre 2022).