Informations

15.3 : Algorithmes de clustering - Biologie

15.3 : Algorithmes de clustering - Biologie


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Pour analyser les données d'expression génique, il est courant d'effectuer une analyse de clustering. Alternativement, les méthodes de clustering agglomératif produisent un ensemble de clusters imbriqués organisés en hiérarchie représentant des structures des niveaux de détail les plus larges aux plus fins.

Clustering K-Means

L'algorithme k-means regroupe n objets en fonction de leurs attributs en k partitions. Il s'agit d'un exemple de partitionnement, où chaque point est affecté à exactement un cluster de sorte que la somme des distances entre chaque point et son centre étiqueté en conséquence soit minimisée. La motivation sous-jacente à ce processus est de créer les clusters les plus compacts possibles, généralement en termes de métrique de distance euclidienne.

L'algorithme des k-moyennes, tel qu'illustré à la figure 15.8, est implémenté comme suit :

  1. Supposons un nombre fixe de clusters, k
  2. Initialisation: Initialiser aléatoirement les k moyennes μk associées aux clusters et affecter chaque point de données xje au cluster le plus proche, où la distance entre xje etk est donné par dje,k = (xjek)2 .
  3. Itération: Recalculer le centroïde de l'amas en fonction des points qui lui sont attribués : (mu_{k}(n+1)=sum_{x_{i} in k} frac{x_{i}}{left| x^{k} ight|}) où xk est le nombre de points d'étiquette k. Réaffectez les points de données aux k nouveaux centroïdes par la métrique de distance donnée. Les nouveaux centres sont effectivement calculés pour être la moyenne des points attribués à chaque groupe.
  4. Résiliation: itérer jusqu'à la convergence ou jusqu'à ce qu'un nombre d'itérations spécifié par l'utilisateur soit atteint. Notez que l'itération peut être piégée à certains optima locaux.

Il existe plusieurs méthodes pour choisir k: il suffit de regarder les données pour identifier des clusters potentiels ou d'essayer itérativement des valeurs pour n, tout en pénalisant la complexité du modèle. Nous pouvons toujours créer de meilleurs clusters en augmentant k, mais à un moment donné, nous commençons à surajuster les données.

Nous pouvons également considérer les k-moyennes comme essayant de minimiser un critère de coût associé à la taille de chaque cluster, où le coût augmente à mesure que les clusters deviennent moins compacts. Cependant, certains points peuvent être presque à mi-chemin entre deux centres, ce qui ne cadre pas bien avec le clustering binaire appartenant à k-means.

Clustering K-Means flou

Dans clustering flou, chaque point a une probabilité d'appartenir à chaque cluster, plutôt que d'appartenir complètement à un seul cluster. Fuzzy k-means essaie spécifiquement de traiter le problème où les points sont quelque peu entre les centres ou autrement ambigus en remplaçant la distance par la probabilité, qui pourrait bien sûr être une fonction de la distance, comme avoir une probabilité par rapport à l'inverse de la distance. Fuzzy k-means utilise un centroïde pondéré basé sur ces probabilités. Les processus d'initialisation, d'itération et de terminaison sont les mêmes que ceux utilisés dans k-means. Les clusters résultants sont mieux analysés comme des distributions probabilistes plutôt que comme une affectation ferme d'étiquettes. Il faut savoir que k-moyennes est un cas particulier de k-moyennes floues lorsque la fonction de probabilité utilisée est simplement 1 si le point de données est le plus proche d'un centroïde et 0 sinon.

L'algorithme des k-moyennes floues est le suivant :

  1. Supposons un nombre fixe de clusters k
  2. Initialisation : Initialiser aléatoirement les k moyennes μk associées aux clusters et calculer la probabilité que chaque point de données xi soit membre d'un cluster donné k, P(le point xi a l'étiquette k|xi,k).
  3. Itération : recalculer le centroïde du cluster comme centroïde pondéré compte tenu des probabilités d'appartenance de tous les points de données xi : [mu_{k}(n+1)=frac{sum_{x_{i} in k} x_{i} imes Pgauche(mu_{k} mid x_{i} ight)^{b}}{sum_{x_{i} in k} Pgauche(mu_{k} mid x_{i} ight)^{b}} onumber ] Et recalculez les adhésions mises à jour P (μk|xje)(il existe différentes manières de définir l'appartenance, voici juste un exemple) : [Pleft(mu_{k} mid x_{i} ight)=left(sum_{j=1}^{ k}left(frac{d_{ik}}{d_{jk}} ight)^{frac{2}{b-1}} ight)^{-1} onumber ]
  4. Terminaison : itérer jusqu'à ce que la matrice d'appartenance converge ou jusqu'à ce qu'un nombre d'itérations spécifié par l'utilisateur soit atteint (l'itération peut être piégée à certains maxima ou minima locaux)

Le b ici est l'exposant de pondération qui contrôle les poids relatifs placés sur chaque partition, ou le degré de flou. Lorsque b− > 1, les partitions qui minimisent la fonction d'erreur quadratique sont de plus en plus dures (non floues), tandis que lorsque b− > ∞ les appartenances se rapprochent toutes de 1 , qui est l'état le plus flou. Il n'y a aucune preuve théorique k sur la façon de choisir un b optimal, alors que les valeurs empiriques utiles sont parmi [1, 30], et dans la plupart des études, 1.5 (leqslant ) b (legslant ) 3.0 a fonctionné bien.

K-Means comme modèle génératif

UNE modèle génératif est un modèle pour générer aléatoirement des valeurs de données observables, compte tenu de certains paramètres cachés. Alors qu'un modèle génératif est un modèle de probabilité de toutes les variables, un modèle discriminant fournit un modèle conditionnel uniquement de la ou des variables cibles en utilisant les variables observées.

Afin de faire de k-means un modèle génératif, nous l'examinons maintenant de manière probabiliste, où nous supposons que les points de données dans le cluster k sont générés en utilisant une distribution gaussienne avec la moyenne au centre du cluster et une variance de 1, qui donne

[Pleft(x_{i} mid mu_{k} ight)=frac{1}{sqrt{2 pi}} exp left{-frac{left(x_{ i}-mu_{k} ight)^{2}}{2} ight}.]

Cela donne une représentation stochastique des données, comme le montre la figure 15.10. Maintenant, cela se transforme en un problème de maximum de vraisemblance, qui, nous le montrerons ci-dessous, est exactement équivalent à l'algorithme original des k-moyennes mentionné ci-dessus.

Dans l'étape de génération, nous voulons trouver une partition la plus probable, ou une attribution d'étiquette, pour chaque xi étant donné la moyenne μk. En supposant que chaque point est dessiné indépendamment, nous pourrions rechercher l'étiquette du maximum de vraisemblance pour chaque point séparément :

[arg max _{k} Pleft(x_{i} mid mu_{k} ight)=arg max _{k} frac{1}{sqrt{2 pi} } exp left{-frac{left(x_{i}-mu_{k} ight)^{2}}{2} ight}=arg min _{k}left (x_{i}-mu_{k} ight)^{2} onumber ]

C'est totalement équivalent à trouver le centre de cluster le plus proche dans l'algorithme original des k-moyennes.

Dans l'étape d'estimation, nous recherchons l'estimation du maximum de vraisemblance de la moyenne de cluster μk, étant donné les partitions (étiquettes) :

[ left.arg max _{mu}left{log prod_{i} Pleft(x_{i} mid mu ight) ight}=arg max _ {mu} sum_{i}left{-frac{1}{2}left(x_{i}-mu ight)^{2}+log left(frac{1} {sqrt{2 pi}} ight) ight) ight}=arg min _{mu} sum_{i}left(x_{i}-mu ight)^{2 } pas de numéro ]

Notez que la solution de ce problème est exactement le centroïde du xje, qui est la même procédure que l'algorithme original des k-moyennes.

Malheureusement, puisque les k-moyennes supposent l'indépendance entre les axes, la covariance et la variance ne sont pas prises en compte à l'aide des k-moyennes, de sorte que des modèles tels que les distributions oblongues ne sont pas possibles. Cependant, ce problème peut être résolu en généralisant ce problème en problème de maximisation des attentes.

Maximisation des attentes

K-means peut être considéré comme un exemple de EM (algorithmes de maximisation des attentes). le paramètre précédent. Ensuite, en utilisant les données produites à l'étape E comme observation, le déplacement du centroïde vers la moyenne des étiquettes attribuées à ce centre correspond à l'étape M de maximisation de la probabilité du centre compte tenu des étiquettes. Ce cas est analogue à l'apprentissage de Viterbi. Une comparaison similaire peut être établie pour les k-moyennes floues, ce qui est analogue à Baum-Welch des HMM. La figure 15.12 compare le clustering, le HMM et la découverte de motifs par rapport à l'algorithme de minimisation des attentes.

Il convient de noter qu'en utilisant le cadre EM, l'approche k moyennes peut être généralisée à des clusters de forme oblongue et de tailles variables. Avec k signifie, les points de données sont toujours attribués au centre de cluster le plus proche. En introduisant une matrice de covariance dans la fonction de probabilité gaussienne, nous pouvons autoriser des clusters de tailles différentes. En définissant la variance sur différents axes, nous pouvons même créer des distributions oblongues.

EM est garanti de converger et de trouver la meilleure réponse possible, au moins d'un point de vue algorithmique. Le problème notable de cette solution est que l'existence de maxima locaux de densité de probabilité peut empêcher l'algorithme de converger vers le maximum global. Une approche qui peut éviter cette complication consiste à tenter plusieurs initialisations pour mieux déterminer le paysage des probabilités.

Les limites de l'algorithme K-Means

L'algorithme k-means a quelques limitations qu'il est important de garder à l'esprit lors de son utilisation et avant de le choisir. Tout d'abord, cela nécessite une métrique. Par exemple, nous ne pouvons pas utiliser l'algorithme des k-moyennes sur un ensemble de mots car nous n'aurions aucune métrique.

La deuxième limitation principale de l'algorithme k-means est sa sensibilité au bruit. Une façon d'essayer de réduire le bruit est d'exécuter au préalable une analyse des composants principaux. Une autre façon est de pondérer chaque variable afin de donner moins de poids aux variables affectées par un bruit significatif : les poids seront calculés dynamiquement à chaque itération de l'algorithme K-means [3].

La troisième limite est que le choix des centres initiaux peut influencer les résultats. Il existe des heuristiques pour sélectionner les centres de cluster initiaux, mais aucune d'entre elles n'est parfaite.

Enfin, il faut connaître a priori le nombre de classes. Comme nous l'avons vu, il existe des moyens de contourner ce problème, essentiellement en exécutant plusieurs fois l'algorithme en faisant varier k ou en utilisant la règle empirique (k approx sqrt{n/2} si nous manquons du côté calculatoire. en.Wikipedia.org/wiki/Determining_the_number_of_clusters_in_a_data_set résume bien les différentes techniques pour sélectionner le nombre de clusters. Le clustering hiérarchique fournit une approche pratique pour choisir le nombre de clusters.

Classification hiérarchique

Alors que les regroupements discutés jusqu'à présent fournissent souvent des informations précieuses sur la nature de diverses données, ils négligent généralement une composante essentielle des données biologiques, à savoir l'idée que la similitude peut exister à plusieurs niveaux. Pour être plus précis, la similarité est une propriété intrinsèquement hiérarchique, et cet aspect n'est pas abordé dans les algorithmes de clustering discutés jusqu'à présent. Le clustering hiérarchique aborde spécifiquement ce problème de manière très simple et est peut-être l'algorithme le plus largement utilisé pour les données d'expression. Comme illustré à la figure 15.13, il est mis en œuvre comme suit :

1. Initialisation : Initialisez une liste contenant chaque point en tant que cluster indépendant.
2. Itération : créez un nouveau cluster contenant les deux clusters les plus proches de la liste. Ajoutez ce nouveau cluster à

la liste et supprimer les deux groupes constitutifs de la liste.

L'un des principaux avantages de l'utilisation du clustering hiérarchique et du suivi des moments auxquels nous fusionnons certains clusters est que nous pouvons créer une structure arborescente qui détaille les moments auxquels nous avons rejoint chaque cluster, comme le montre la figure 15.13. Ainsi, pour obtenir un nombre de clusters qui correspond à votre problème, vous coupez simplement à un niveau de coupe de votre choix comme dans la figure 15.13 et cela vous donne le nombre de clusters correspondant à ce niveau de coupe. Cependant, sachez qu'un écueil potentiel avec cette approche est qu'à certains niveaux de coupure, des éléments qui sont assez proches dans l'espace (comme e et b dans la figure 15.13), peuvent ne pas être dans le même cluster.

Bien sûr, une méthode pour déterminer les distances entre les clusters est nécessaire. La métrique particulière utilisée varie selon le contexte, mais (comme le montre la figure 15.14, certaines implémentations courantes incluent le maximum,

distances minimales et moyennes entre les clusters constitutifs, et la distance entre les centroïdes des clusters.

A noté que lors du choix des clusters les plus proches, le calcul de toutes les distances par paires prend beaucoup de temps et d'espace, donc un meilleur schéma est nécessaire. Une façon possible de le faire est de : 1) définir des cadres de délimitation qui divisent l'espace des caractéristiques en plusieurs sous-espaces 2) calculer les distances par paires dans chaque cadre 3) déplacer la limite des cadres dans différentes directions et recalculer les distances par paires 4 ) choisissez la paire la plus proche en fonction des résultats de toutes les itérations.

Évaluation des performances du cluster

La validité d'un regroupement particulier peut être évaluée de différentes manières. La surreprésentation d'un groupe connu de gènes dans un cluster, ou, plus généralement, la corrélation entre le clustering et les associations biologiques confirmées, est un bon indicateur de validité et de significativité. Cependant, si les données biologiques ne sont pas encore disponibles, il existe des moyens d'évaluer la validité à l'aide de statistiques. Par exemple, des clusters robustes apparaîtront à partir du clustering même lorsque seuls des sous-ensembles du total des données disponibles sont utilisés pour générer des clusters. De plus, la signification statistique d'un regroupement peut être déterminée en calculant la probabilité qu'une distribution particulière ait été obtenue de manière aléatoire pour chaque groupe. Ce calcul utilise des variations sur la distribution hypergéométrique. Comme le montre la figure 15.15, nous pouvons le faire en calculant la probabilité que nous ayons plus de r + lorsque nous choisissons k éléments sur un total de N éléments. http://en.Wikipedia.org/wiki/Cluster...tering_results donne plusieurs formules pour évaluer la qualité du clustering.


Introduction

L'analyse de clustering est un problème de recherche émergent dans l'exploration de données en raison de sa variété d'applications. Avec l'avènement de nombreux algorithmes de clustering de données au cours des dernières années et son utilisation intensive dans une grande variété d'applications, y compris le traitement d'images, la biologie computationnelle, la communication mobile, la médecine et l'économie, a conduit à la popularité de ces algorithmes. Le principal problème avec les algorithmes de clustering de données est qu'ils ne peuvent pas être standardisés. L'algorithme développé peut donner le meilleur résultat avec un type d'ensemble de données mais peut échouer ou donner de mauvais résultats avec un ensemble de données d'autres types. Bien qu'il y ait eu de nombreuses tentatives pour standardiser les algorithmes qui peuvent bien fonctionner dans tous les cas de scénarios, mais jusqu'à présent, aucun accomplissement majeur n'a été réalisé. De nombreux algorithmes de clustering ont été proposés jusqu'à présent. Cependant, chaque algorithme a ses propres avantages et inconvénients et ne peut pas fonctionner pour toutes les situations réelles. Avant d'explorer en détail divers algorithmes de clustering, examinons brièvement ce qu'est le clustering.

Regroupement est un processus qui divise un ensemble de données donné en groupes homogènes en fonction de caractéristiques données, de sorte que des objets similaires sont conservés dans un groupe alors que des objets dissemblables sont dans des groupes différents. C'est le problème d'apprentissage non supervisé le plus important. Il s'agit de trouver une structure dans une collection de données non étiquetées. Pour une meilleure compréhension, veuillez vous référer à la figure I.


Fond

Le séquençage de l'ARN unicellulaire (scRNA-seq) permet aux chercheurs d'étudier l'hétérogénéité entre les cellules individuelles et de définir les types cellulaires d'un point de vue transcriptomique. Un problème important dans l'analyse des données scRNA-seq est la prévalence des abandons, causés par des échecs d'amplification au cours de l'étape de transcription inverse dans l'expérience RNA-seq. La prévalence des abandons se manifeste par un excès de zéros et près de zéro dans l'ensemble de données, ce qui s'est avéré créer des difficultés dans l'analyse des données scRNA-seq [1, 2].

Plusieurs packages ont récemment été développés pour les différents aspects de l'analyse des données scRNA-seq, notamment le cycle cellulaire (cyclone [3] et scLVM [4]), la normalisation (scran [5]), l'analyse d'expression différentielle (scde [2] et MAST [6]) et l'analyse temporelle (Monocle [7]), mais peu effectuent des étapes de prétraitement telles que la réduction de la dimensionnalité et le regroupement, qui sont des étapes critiques pour l'étude de l'hétérogénéité des types cellulaires.

Le package de réduction de dimensionnalité de pointe pour les données scRNA-seq est ZIFA [1]. Il met en œuvre une méthode d'analyse en composantes principales (ACP) probabiliste modifiée qui intègre un modèle gonflé de zéro pour tenir compte des événements d'abandon. ZIFA utilise un algorithme itératif de maximisation des attentes pour l'inférence, ce qui rend le calcul intensif pour les grands ensembles de données scRNA-seq.

Un autre package t-SNE [8] est populaire parmi les biologistes, mais il n'est pas conçu spécifiquement pour les données scRNA-seq et ne traite pas le problème des abandons. D'autres outils récemment développés, tels que BackSPIN [9], pcaReduce [10], SC3 [11], SNN-Cliq [12], RaceID [13] et BISCUIT [14], ont été conçus pour traiter le clustering optimal de cellules individuelles. en groupes ou hiérarchies significatifs. Comme ZIFA, ces algorithmes impliquent généralement une modélisation statistique, qui nécessite des estimations de paramètres. Ces algorithmes utilisent souvent des méthodes itératives pour obtenir des solutions optimales locales ou globales, et par conséquent, ils peuvent être lents lors du traitement de grands ensembles de données de plus de plusieurs centaines de cellules individuelles.

Dans de nombreuses situations pratiques, les chercheurs s'intéressent aux résultats de regroupement rapides et intuitifs qu'ils peuvent facilement visualiser. L'ACP est une approche analytique courante pour la visualisation des données pour l'hétérogénéité de l'échantillon, et est souvent utilisée pour la réduction de la dimensionnalité avant le regroupement. De nombreuses versions de PCA, telles que la mise en œuvre prcomp dans R, sont très rapides et ont été couramment utilisées pour analyser de grands ensembles de données d'expression génique. Néanmoins, l'ACP standard n'est pas conçue pour prendre en compte les abandons dans les données scRNA-seq. Dans ce travail, nous visons à développer un algorithme rapide de type PCA qui prend en compte les abandons.


Méthodes

La transformation du clustering d'ensemble vers l'espace catégoriel

Cette section décrit la transformation de clustering d'ensemble (EC) qui transforme les données d'origine de leur caractéristique d'origine en espace catégoriel, comme illustré dans la figure 2. L'algorithme de base suppose que les points appartenant au même cluster sont plus similaires que les points appartenant à des clusters différents. . Dans le monde réel, cette hypothèse peut ne pas toujours être vérifiée, comme illustré dans l'exemple présenté sur la figure 1. Dans cet exemple, les données comprennent deux classes (cercles et losanges). Si nous regroupons les données en deux clusters, le cluster de gauche comprendra deux types de classes et celui de droite contiendra toujours tous les points de la même classe.

Exemple de regroupement de données

En conclusion, nous avons décidé d'exécuter l'algorithme de clustering plusieurs fois. Les points appartenant au même cluster dans les passages multiples sont considérés comme des points identiques et définiront un (groupe) qui sera classé dans la même classe.

Soit (D) un ensemble de points étiquetés utilisés comme données d'apprentissage, et UNE un ensemble de données non étiquetées. Premièrement le GrpClassifierEC L'algorithme créera un nouveau jeu de données (E) , où (E) est un jeu de données combinant (D) et (A) (c'est-à-dire (E=Dcup A) ), puis le GrpClassifierEC exécute l'algorithme de clustering k-means plusieurs fois avec différentes valeurs de (k) (nous le renvoyons à nmc = nombre de clusters) et crée la matrice de clustering (cMat) . (cMat) est une matrice où le (^) la ligne se compose des résultats de clustering de la (^) pointer dans (E) . Voir le tableau 1 pour un exemple de cMat avec 20 points et 10 dimensions de caractéristiques catégorielles. La première colonne est les résultats de l'exécution de k-means avec k = 2 tandis que la dernière colonne est les résultats de l'exécution de k-means avec k = 11. Les valeurs sont l'indice du cluster qui a été affecté par k-means. Nous enregistrons les résultats de k = 2.

Application de la transformation EC sur (_in E) créera un nouveau point (_^<*>in cMat) avec des valeurs catégorielles. La dimension du Xje * est (k-1) . Par conséquent, l'application de la transformation EC sur l'ensemble des données générera une nouvelle donnée catégorielle (données EC) qui se compose de je pointe avec nmc-1 caractéristiques catégorielles.

La nouvelle dimension nmc-1, généralement, est bien inférieure à la dimension de données d'origine (nmc-1N dans la figure 2). Plus intéressant encore, le nouveau point de données EC peut également être réduit car les nouvelles données EC contiennent des points identiques. Nous l'expliquerons plus en détail dans la section « Réduction des données ». Points identiques qui partagent les mêmes clusters sur toute l'itération de k-les moyennes sont représentées par un même point dans cMat en conséquence, ces points sont envisager être un point, par conséquent tous les points identiques définiront un groupe. Par exemple, dans le tableau 1, le point 11, le point 12 et le point 20 ont les mêmes valeurs catégorielles. Cela signifie que l'espace vectoriel qui représente ces 3 points est = (g) (c0,c2,c2,c2,c4,c5,c6,c5,c5,c4). En conséquence, nous considérons ces 3 points comme un seul point (g) auquel nous nous référons comme un point unique. En d'autres termes, chaque groupe est représenté par un point unique.

Le flux de travail pour la création de l'espace catégoriel EC basé sur l'algorithme de clustering k-means. Les données d'origine sont l'entrée du flux de travail. Le résultat est un nouvel ensemble de données nommé EC data dans un espace catégoriel de dimension k. le signe indique que k est considérablement plus petit que la dimension de données d'origine N

Notez que l'ensemble (E) contient des points étiquetés et non étiquetés, et par conséquent, les groupes peuvent contenir des points étiquetés et non étiquetés. Généralement, il y a trois cas possibles pour les points identiques d'un même groupe :

Les points étiquetés ont la même étiquette de classe, les points non étiquetés seront classés avec cette étiquette.

Les points étiquetés ont des étiquettes de classe différentes : ici les points de groupe seront classés comme la classe majoritaire.

Tous les points ne sont pas étiquetés : dans ce cas, le groupe sera un groupe non classé et l'algorithme le classe en fonction du groupe étiqueté le plus proche.

Pour cela, nous définissons une mesure de pureté pour un groupement donné afin d'évaluer la pureté du processus de groupement. La mesure de pureté est basée principalement sur les probabilités des objets étiquetés comme suit :

où (_) désigne le groupe (i) qui était représenté par le vecteur (_) dans la matrice (G) , (#classes) désigne le nombre de classes dans (_) , et (

_) désigne la probabilité de la classe (j) dans le groupe (i) . Comme on peut le voir, (purity(_)) vaut 1 lorsque le groupe est pur et (frac<1><#classes>) pour la pureté la plus faible, cela diminuera au fur et à mesure que le nombre de classes augmentera.

L'algorithme des k-moyennes est connu pour avoir une complexité temporelle de Au 2 )m est le où m est la taille des données d'entrée. Alors la complexité de la transformation EC est O(k.n 2 )k est le nombre de fois que nous exécutons les k-moyennes. En fait, cette partie est la partie de calcul la plus lourde du GrpClassifierEC algorithme.

GrpClassifierEC—classificateur basé sur le clustering d'ensemble

Les GrpClassifierEC le pseudo-code est présenté dans Algorithme 2. L'entrée du classificateur est la matrice cMat générée par la transformation EC décrite dans l'algorithme 1. La première étape du GrpClassifierEC crée le groupes extrait de cMat. groupes = < (groupe

_) > où je = 1,…, s. s est le nombre de groupes. Le nombre de groupes est influencé par nmc, le nombre d'itérations que nous exécutons k-means. Par exemple, si nous exécutons k-means avec nmc = 1 alors tous les points seront attribués à un seul cluster, ce qui signifie que nous n'avons qu'un seul groupe qui contient tous les points de données. Comme nous l'avons vu dans le tableau 2 pour les données Cercopithecidae vs Malvacea, nous avons 449 groupes avec nmc = 30 alors qu'avec les mêmes données avec nmc = 50 nous avons 593 groupes (le tableau 3 #EC_Samples est égal au nombre de groupes). Le nombre de groupes augmente au fur et à mesure que nmc augmente et pourrait atteindre le nombre de points dans les données, ce qui signifie que chaque groupe hébergera un point dans les valeurs catégorielles.

Les groupes peuvent avoir des tailles différentes (la taille est le nombre de points catégoriques qui lui appartient). Comme le montre le tableau 2, le groupe ne peut avoir qu'un seul point en fait, nous voyons que 305 groupes différents (points uniques) avec la taille 1 tandis que 68 groupes (points uniques) avec la taille 2. Nous voyons également que nous avons un groupe avec la taille 31 qui est la taille maximale de ces données spécifiques.

Suite à l'étape de création du groupes, nous proposons notre nouvelle approche de classification, en sélectionnant au hasard une point de chaque groupe. L'étiquette du point sélectionné sera l'étiquette de tous les points appartenant au groupe. Le processus de sélection d'un point aléatoire et d'attribution de son étiquette à son groupe se répète r fois. Les GrpClassifierEC classificateur produit une liste nommée prd_set celui pour contient les résultats des prédictions. Ensuite, afin de calculer les performances, nous exécutons une fonction de score. La fonction scorer compare l'étiquette attribuée et l'étiquette d'origine pour chaque point afin d'obtenir la matrice de confusion. Les statistiques de précision telles que les vrais positifs, les faux positifs, les vrais négatifs, les faux négatifs, le rappel, la précision, la sensibilité, la spécificité, la mesure F, ainsi que la précision globale et le kappa de Cohen, sont calculées.

Réduction des données

Le tableau 2 montre le résultat de la procédure CE avec k = 30 appliqué sur les données Cercopithecidae vs Malvacea qui contiennent 894 exemples (points). Le tableau montre également que les données EC ont 449 points ou groupes uniques, une réduction de 50 % de la taille des données originales (449/894 = 0,5).

Pour chaque groupe (point unique), nous mesurons sa taille, égale au nombre de fois où ce point unique apparaît dans les données EC. Par exemple, dans le tableau 2, nous avons 305 points uniques de taille 1. Tous ces points apparaissent une fois dans le nouvel espace de données. De plus, nous avons 68 points uniques. Si chacun apparaît deux fois dans les données, alors chacun est de taille 2. Il y a 22 points de taille 3—chacun de ces 22 points uniques apparaît 3 fois dans les données. Notez que les étiquettes ne sont pas incluses dans les données CE. Cela signifie que le groupe de points dans l'espace EC peut avoir différentes étiquettes associées aux points d'origine et partager toujours le même groupe.

La figure 3 montre la distribution de la taille du groupe pour nmc = 30 et nmc = 50, et indique clairement que comme nmc augmente, le nombre de groupes de taille 1 augmente également. On s'attend à ce que le nombre de groupes de taille 1 soit le même que le nombre de points d'origine à mesure que nous augmentons la valeur de nmc. En d'autres termes, chaque point sera hébergé dans un cluster. Cela soulève en fait une question scientifique : quelle est la valeur optimale de nmc qui permettra d'améliorer les performances du classifieur, ou plus précisément de capturer la nature des données en termes de clusters. Répondre à cette question nécessite des recherches futures supplémentaires.

Distribution des points des groupes (points) taille comparant nmc = 30 et nmc = 50

Expériences sur des jeux de données numériques

Pour évaluer les performances du nouveau classificateur GrpClassifierEC nous avons comparé ses résultats aux k plus proches voisins, aux arbres de décision et aux algorithmes de classification de forêts aléatoires. Nous l'avons testé sur 10 ensembles de données biologiques et nous avons comparé les performances de chaque algorithme. Les résultats montrent que le nouvel algorithme utilisant le regroupement d'ensembles était supérieur et surpasse les autres algorithmes de base sur la plupart des ensembles de données.

Ensembles de données

Les données sont constituées de séquences précurseurs de microARN, et chaque séquence est composée de 4 lettres nucléotidiques . La longueur de chaque séquence précurseur est d'environ 70 nucléotides. La source de ces données est miRbase [18]. Une partie des données que nous avons utilisées provenait d'autres études différentes [19,20,21], y compris notre étude [16].

Une façon simple de représenter des séquences constituées de 4 lettres nucléotidiques consiste à utiliser la fréquence k-mers. Les comptes de (k) -mer dans une séquence donnée ont été normalisés par la longueur de la séquence.

Nos caractéristiques incluent les fréquences k-mer, d'autres caractéristiques de distance qui ont été récemment suggérées par Yousef et al. [19] et les caractéristiques secondaires suggérées par [22]. De nombreuses fonctionnalités supplémentaires décrivant les pré-miARN ont également été proposées [23] et sont incluses dans l'ensemble de fonctionnalités qui compte 1038 fonctionnalités.

Les principales données sont constituées d'informations provenant de 15 clades (tableau 4). Les Homo sapiens des séquences ont été extraites des données de son clade Hominidae. Les séquences d'homologie ont été supprimées de l'ensemble de données et un seul représentant a été conservé. Chaque clade peut servir d'exemples positifs ou d'exemples négatifs. Compte tenu de toutes les combinaisons différentes de paires de clades (positif/négatif), il est possible de générer 256 ensembles de données. Nous avons sélectionné au hasard 10 ensembles de données présentés dans le tableau 5.

Mise en œuvre

Nous avons implémenté le GrpClassifierEC dans Knime [24]. Nous avons décidé d'utiliser la plateforme gratuite et open-source Knime en raison de sa simplicité et de ses présentations graphiques très utiles. De plus, Knime est également un outil hautement intégrateur. Le flux de travail Knime se compose de deux parties, la première partie effectue la transformation EC comme décrit sur l'algorithme 1. En fait, cette partie prend du temps où, par exemple, il a fallu 13 minutes pour générer la matrice EC pour le fichier d'entrée qui se compose de 1038 caractéristiques et 1068 points. L'analyse a été effectuée sur un ordinateur portable avec un processeur Intell® Core ™ i7 7600U à 2,80 GHz 2,90 GHz avec 16 GM de RAM.

Évaluation des performances du modèle

Nous avons testé un nombre différent de clusters EC en utilisant l'algorithme de clustering k-means avec nmc valeurs de 10 à 50. Pour chaque niveau, nous avons effectué 100 itérations avec une taille d'échantillon égale, puis calculé la moyenne de chaque mesure de performance décrite ci-dessous.

Pour chaque modèle établi, nous avons calculé un certain nombre de mesures de performance pour l'évaluation du classificateur telles que la sensibilité, la spécificité et l'exactitude selon les formules suivantes (TP : vrai positif, FP : faux positif, TN : vrai négatif et FN faux négatif classements):


DropClust : regroupement efficace de données scRNA-seq ultra-larges

La transcriptomique unicellulaire basée sur des gouttelettes a récemment permis le criblage parallèle de dizaines de milliers de cellules individuelles. Les méthodes de clustering qui s'adaptent à de telles données dimensionnelles sans compromettre la précision sont rares. Nous exploitons le Locality Sensitive Hashing, une technique de recherche approximative du voisin le plus proche pour développer un algorithme de clustering de novo pour les données de cellule unique à grande échelle. Sur un certain nombre d'ensembles de données réels, dropClust a surpassé les meilleures méthodes existantes en termes de temps d'exécution, de précision de regroupement et de détectabilité des sous-types de cellules mineurs.

Les figures

( UNE ) Enrobage 2D de transcriptomes 20K de PBMC, choisis au hasard parmi les…

Barplot représentant le nombre de…

Barplot représentant le nombre de composantes gaussiennes estimées pour chacun des…

Les barres montrent les index ARI…

Les barres montrent les index ARI obtenus en comparant les résultats de regroupement avec des annotations de type de cellule.

Localisation des transcriptomes PBMC de…

Localisation de transcriptomes PBMC de même type (basée sur l'annotation) sur la 2D…

Regroupement de données PBMC ∼68K.…

Regroupement de données PBMC ∼68K. Visualisation basée sur dropClust (une version modifiée de tSNE)…

Tendance à la hausse des analyses…

Tendance à l'augmentation du temps d'analyse (prétraitement, clustering et visualisation)) pour différents pipelines…

Détectabilité des types cellulaires mineurs.…

Détectabilité des types cellulaires mineurs. Barres affichant une moyenne de F 1 -scores, obtenus…

( UNE ) Boxplots représentant…

( UNE ) Boxplots illustrant la moyenne Silhouette scores calculés sur 100 échantillons bootstrap…


Les nombreux algorithmes de clustering

There are several variants of clustering algorithms family: K-means, hierarchical, DBSCAN, spectral, gaussian, birch, mean shift and affinity propagation are some of them. Below I am highlighting some key points on the first three algorithms— the most commonly applied ones.

K-means: First, “K” refers to the number of clusters you want. C'est-à-dire, K = n moyens m number of clusters to be identified. Then there’s something called “centroid”, which is an imaginary/artificial data point (an average of data points) around which each cluster of data is partitioned. Donc K = 2 means that the algorithm will partition the observations (data) into 2 clusters such that the distances between the centroids and observations are minimized.

Avantages : simple to understand, easy to implement

Disadvantages: sometimes difficult to choose the K outliers can drag the centroid in their direction scaling data can change the clusters

Hierarchical clustering: Hierarchical clustering works in two different ways: the first one is called a “bottom-up” or agglomerative clustering, where each observation gets its own cluster, then each pair of clusters are merged together to form another cluster, and so on. The other one (a.k.a. “top-down” or divisive clustering) works in the opposite direction, c'est à dire., all observations start with one cluster, then repeatedly divided into smaller cluster sizes.

Avantages : easy to implement number of clusters is easy to identify by looking at the dendrogram more informative than K-means clustering

Disadvantages: highly sensitive to outliers can be time consuming for large datasets

DBSCAN: Proposed in 1996, it is a density-based algorithm, where observations are clustered based on how close they are to each other given a minimum number of points. It takes two parameters: (i) ?? (epsilon) — determining the radius within which the points should be in one cluster and (ii) minPts — specifying a minimum number of points to form a dense space/cluster. Interesting enough, the 1996 paper that proposed this algorithm won the “ Test of Time Award” in the 2014 KDD conference.

Avantages: unlike K-means and hierarchical clustering, DBSCAN is robust in the presence of outliers thus can be used in anomaly (i.e. outliers) detection.

Disadvantages: it is sensitive to parameter values (?? et minPts) fails to identify any clusters appropriately in varying data density.


Clustering Challenges in Biological Networks

This volume presents a collection of papers dealing with various aspects of clustering in biological networks and other related problems in computational biology. It consists of two parts, with the first part containing surveys of selected topics and the second part presenting original research contributions. This book will be a valuable source of material to faculty, students, and researchers in mathematical programming, data analysis and data mining, as well as people working in bioinformatics, computer science, engineering, and applied mathematics. In addition, the book can be used as a supplement to any course in data mining or computational/systems biology.

  • Surveys of Selected Topics:
    • Fixed-Parameter Algorithms for Graph-Modeled Data Clustering (Hüffner et al.)
    • Probabilistic Distance Clustering: Algorithm and Applications (C Iyigun & A Ben-Israel)
    • Analysis of Regulatory and Interaction Networks from Clusters of Co-expressed Genes (E Yang et al.)
    • Graph-based Approaches for Motif Discovery (E Zaslavsky)
    • Statistical Clustering Analysis: An Introduction (H Zhang)
    • Diversity Graphs (P Blain et al.)
    • Identifying Critical Nodes in Protein-Protein Interaction Networks (V Boginski & C W Commander)
    • Faster Algorithms for Constructing a Concept (Galois) Lattice (V Choi)
    • A Projected Clustering Algorithm and Its Biomedical Application (P Deng & W Wu)
    • Graph Algorithms for Integrated Biological Analysis, with Applications to Type 1 Diabetes Data (J D Eblen et al.)
    • A Novel Similarity-based Modularity Function for Graph Partitioning (Z Feng et al.)
    • Mechanism-based Clustering of Genome-wide RNA Levels: Roles of Transcription and Transcript-Degradation Rates (S Ji et al.)
    • The Complexity of Feature Selection for Consistent Biclustering (O E Kundakcioglu & P M Pardalos)
    • Clustering Electroencephalogram Recordings to Study Mesial Temporal Lobe Epilepsy (C-C Liu et al.)
    • Relating Subjective and Objective Pharmacovigilance Association Measures (R K Pearson)
    • A Novel Clustering Approach: Global Optimum Search with Enhanced Positioning (M P Tan & C A Floudas)

    Updated pub date on 29/1/2008

    Updated pub date on 10/4/2008

    Updated price on 28/05/2008

    Updated pub date on 18/6/2008

    Updated pub date on 5/8/2008

    Updated descrip, eds & in-hse ed on 18/12/2008

    Updated contents, pp & pub date on 13/2/2009

    AFFAIRE AVANT
    Fixed-Parameter Algorithms for Graph-Modeled Data Clustering

    Fixed-parameter algorithms can efficiently find optimal solutions to some NP-hard problems, including several problems that arise in graph-modeled data clustering. This survey provides a primer about practical techniques to develop such algorithms in particular, we discuss the design of kernelizations (data reductions with provable performance guarantees) and depth-bounded search trees. Our investigations are circumstantiated by three concrete problems from the realm of graph-modeled data clustering for which fixed-parameter algorithms have been implemented and experimentally evaluated, namely CLIQUE, CLUSTER EDITING, and CLIQUE COVER.

    Probabilistic Distance Clustering: Algorithm and Applications

    The probabilistic distance clustering method of the authors [2, 8], assumes the cluster membership probabilities given in terms of the distances of the data points from the cluster centers, and the cluster sizes. A resulting extremal principle is then used to update the cluster centers (as convex combinations of the data points), and the cluster sizes (if not given.) Progress is monitored by the joint distance function (JDF), a weighted harmonic mean of the above distances, that approximates the data by capturing the data points in its lowest contours. The method is described, and applied to clustering, location problems, and mixtures of distributions, where it is a viable alternative to the Expectation–Maximization (EM) method. The JDF also helps to determine the “right” number of clusters for a given data set.

    Analysis of Regulatory and Interaction Networks from Clusters of Co-expressed Genes

    Extracting biological insight from high-throughput genomic studies of human diseases remains a major challenge, primarily due to our inability to recognize, evaluate and rationalize the relevant biological processes recorded from vast amounts of data.

    We will discuss an integrated framework combining fine-grained clustering of temporal gene expression data, selection of maximally informative clusters, based of their ability to capture the underlying dynamic transcriptional response, and the subsequent analysis of the resulting network of interactions among genes in individual clusters. The latter are developed based on the identification of common regulators among the genes in each cluster through mining literature data. We characterize the structure of the networks in terms of fundamental graph properties, and explore biologically the implications of the scale-free character of the resulting graphs. We demonstrate the biological importance of the highly connected hubs of the networks and show how these can be further exploited as targets for potential therapies during the early onset of inflammation and for characterizing the mechanism of action of anti-inflammatory drugs. We conclude by identifying two possible challenges in network biology, namely, the nature of the interactions and the potentially limited information content of the temporal gene expression experiments, and discuss expected implications.

    Graph-based Approaches for Motif Discovery

    Sequence motif finding is a very important and long-studied problem in computational molecular biology. While various motif representations and discovery methods exist, a recent development of graph-based algorithms has allowed practical concerns, such as positional correlations within motifs, to be taken into account. This survey provides an overview of the multi-partite graph formulation of motif finding, and focuses on algorithmic aspects of various motif discovery methodologies.

    Motif finding has been recast as a number of different graph substructure identification problems. First we review a formulation as a maximum-weight clique finding problem, and examine two different integer linear programs to model it. The motif finding algorithms use graph pruning techniques and a cutting planes approach in conjunction with linear programming relaxations. Secondly, we discuss a formulation of motif discovery as that of maximum density subgraph finding, and review a maximum flow based algorithm in an appropriately augmented flow network. Finally, we mention the ‘subtle’ motifs formulation, and define its corresponding graph problem of maximal clique identification. We discuss two different approaches to tackle this problem, one based on winnowing spurious edges and the other on divide-and-conquer sub-clique finding.

    Statistical Clustering Analysis: An Introduction

    Clustering analysis is to segment objects in a dataset into meaningful subsets such that objects with high similarity are segmented into the same subset, and objects with low similarity are segmented into different subsets. This chapter introduces three fundamental but core topics in clustering analysis: the definition of similarity and dissimilarity measure, the clustering algorithm, and determining the number of clusters. For each topic, we introduce the ones that are most popularly used, and emphasize their statistical backgrounds.

    Diversity Graphs

    Bipartite graphs have long been used to study and model matching problems, and in this paper we introduce the bipartite graphs that explain a recent matching problem in computational biology. The problem is to match haplotypes to genotypes in a way that minimizes the number of haplotypes, a problem called the Pure Parsimony problem. The goal of this work is not to address the computational or biological issues but rather to explore the mathematical structure through a study of the underlying graph theory.

    Identifying Critical Nodes in Protein-Protein Interaction Networks

    In recent years, the study of biological networks has increased dramatically. These problems have piqued the interest of researchers in many disciplines from biology to mathematics. In particular, many problems of interest to biological scientists can be modeled as combinatorial optimization problems and studied by operations researchers. In this chapter, we consider the problem of identifying the critical nodes of a network and its potential applications to protein-protein interaction networks. More specifically, we are interested in determining the smallest set of nodes whose removal from the graph maximally disconnects the network. Recent techniques for identifying critical nodes in telecommunication networks are applied to the study of protein-protein interaction graphs and the results are analyzed.

    Faster Algorithms for Constructing a Concept (Galois) Lattice

    In this paper, we present a fast algorithm for constructing a concept (Galois) lattice of a binary relation, including computing all concepts and their lattice order. We also present two efficient variants of the algorithm, one for computing all concepts only, and one for constructing a frequent closed itemset lattice. The running time of our algorithms depends on the lattice structure and is faster than all other existing algorithms for these problems.

    A Projected Clustering Algorithm and Its Biomedical Application

    Projected clustering is concerned with clustering data in high dimensional space where data is more likely correlated in subspaces of full dimensions. Recently, several projected clustering algorithms that focus on finding specific projection for each cluster have been proposed. We find that, besides distance, the closeness of points in different dimensions also depends on the distributions of data along those dimensions. Based on this, we propose a projected clustering algorithm, IPROCLUS (Improved PROCLUS), which is efficient and accurate in handling data in high dimensional space. According to the experimental results on randomly generated synthetic data, our algorithm shows much higher accuracy for the scaled datasets and lower dependence on one of user inputs than PROCLUS. We also apply IPROCLUS on real biomedical data and show that it can achieve much better accuracy than PROCLUS.

    Graph Algorithms for Integrated Biological Analysis, with Applications to Type 1 Diabetes Data

    Graph algorithms can be effective tools for analyzing the immense data sets that frequently arise from high-throughput biological experiments. A major computational goal is to identify dense subgraphs, from which one can often infer some form of biological meaning. In this paper, new techniques are devised and analyzed in an effort to improve the quality and relevance of these subgraphs, and to extend the utility of clique-centric methods that may produce them. Using non-obese diabetic mice as a target organism, the paraclique algorithm is tested on transcriptomic data under various parameters in order to determine how it can best be tuned to applications. The use of proteomic anchors is also discussed in an effort to help guide subgraph selection in the presence of inhomogeneous data, which is an important but notoriously difficult problem in its own right.

    A Novel Similarity-based Modularity Function for Graph Partitioning

    Graph partitioning, or network clustering, is an essential research problem in many areas. Current approaches, however, have difficulty splitting two clusters that are densely connected by one or more “hub” vertices. Further, traditional methods are less able to deal with very confused structures. In this paper we propose a novel similarity-based definition of the quality of a partitioning of a graph. Through theoretical analysis and experimental results we demonstrate that the proposed definition largely overcomes the “hub” problem and outperforms existing approaches on complicated graphs. In addition, we show that this definition can be used with fast agglomerative algorithms to find communities in very large networks.

    Mechanism-based Clustering of Genome-wide RNA Levels: Roles of Transcription and Transcript-Degradation Rates

    DNA array techniques invented over a decade ago enable biologists to measure tens of thousands of mRNA levels in cells simultaneously as functions of environmental perturbations. In a few cases the same technique has been employed to measure not only genome-wide transcript levels (TL) but also the associated transcription rates (TR) simultanément. Since TL is determined by the balance between two opposing processes, c'est à dire., transcription and transcript degradation, simple theoretical considerations indicate that it would be impossible to determine TR basé sur TL data alone. This conclusion is supported by the finding that TL et TR do not always vary in parallel. In fact, the genome-wide measurements of TL et TR in budding yeast undergoing glucose-galactose shift indicate that TL can decrease even though TR increases and TL can increase despite the fact that TR diminue. These counter-intuitive findings cannot be accounted for unless transcript-degradation rates (TD) are also taken into account. One of the main objectives of this contribution is to derive a mathematical equation relating TL à TR et TD. Based on this equation, it was predicted that there would be 9 different mechanisms by which TL can be altered in cells. Les TL et TR data measured in budding yeast demonstrate that all of the 9 predicted mechanisms are found to be activated in budding yeast during glucose-galactose shift, except Mechanisms 5 (i.e., decreasing TL with no change in TR) and 9 (i.e., no change in TL nor in TR). It was also shown that the opposite changes in the mRNA levels of glycolytic and respiratory genes observed between 5 and 360 minutes following the glucose-galactose shift could be quantitatively accounted for in terms of what is referred to as the transcript-degradation/transcription (D/T) ratios calculated here for the first time. Our results suggest that the predicted 9 mechanisms of controlling TL may be employed to cluster the genome-wide measurements of mRNA levels as a means to characterize the functional states of both normal and diseased cells.

    The Complexity of Feature Selection for Consistent Biclustering

    Biclustering is simultaneous classification of the samples and features in a way that samples from the same class have similar values for that class' characteristic features. A biclustering is consistent if in each sample (feature) from any set, the average expression of features (samples) that belong to the same class is greater than the average expression of features (samples) from other classes. Supervised biclustering uses a training set to classify features whose consistency is achieved by feature selection. The worst case complexity of this feature selection process is studied.

    Clustering Electroencephalogram Recordings to Study Mesial Temporal Lobe Epilepsy

    The brain connectivity is known to have substantial influences over the brain function and its underlying information processes. In this chapter, a novel graphtheoretic approach is introduced to investigate the connectivity among brain regions through electroencephalogram (EEG) recordings acquired from a patient with mesial temporal lobe epilepsy (MTLE). The first step of the proposed approach is to transform the brain connectivity behavior into a complete graph. The connectivity for each pair of the brain regions is first quantified by the cross mutual information (CMI) measure, and then the maximum clique algorithm is subsequently applied to find the clique that contained a group of highly connected brain regions that is represented by a clique with maximum size. The CMI is known to have the ability to capture the connectivity between EEG signals. The adopted maximum clique algorithm can reduce the complexity of the clustering procedure for finding the maximum connected brain regions. The proposed graph-theoretic approach offers better assessments to visualize the structure of the brain connectivity over time. The results indicate that the maximum connected brain regions prior to seizure onsets were where the impending seizure was initiated. Furthermore, the proposed approach may be used to improve the outcome of the epilepsy surgery by identifying the seizure onset region(s) correctly.

    Relating Subjective and Objective Pharmacovigilance Association Measures

    The field of pharmacovigilance is concerned with the detection and interpretation of associations between drugs and adverse medical events that may be related to the use of those drugs. These assocations can be measured in various ways, and this paper considers five: two are aggregate statistical measures derived from an entire adverse event database, two are case-specific objective measures, and one is a subjective measure related to the way adverse events are reported. Examination of the available data suggests that these measures are all interrelated, but in a complicated manner. This finding motivates the use of cluster analysis to explore these relationships, with the ultimate objective of constructing an index of blame that quantifies the tendency for some drugs to be subjectively blamed for adverse events even in the absence of objective evidence for an association with those events.

    A Novel Clustering Approach: Global Optimum Search with Enhanced Positioning

    Cluster analysis of genome-wide expression data from DNA microarray hybridization studies is a useful tool for identifying biologically relevant gene groupings. It is hence important to apply a rigorous yet intuitive clustering algorithm to uncover these genomic relationships. In this study, we describe a novel clustering algorithm framework based on a variant of the Generalized Benders Decomposition, denoted as the Global Optimum Search [2, 19, 21, 23, 51] which includes a procedure to determine the optimal number of clusters to be used. The approach involves a pre-clustering of data points to define an initial number of clusters and the iterative solution of a Linear Programming problem (the primal problem) and a Mixed-Integer Linear Programming problem (the master problem), that are derived from a Mixed Integer Nonlinear Programming problem formulation. Badly-placed data points are removed to form new clusters, thus ensuring tight groupings amongst the data points and incrementing the number of clusters until the optimum number is reached. We apply the proposed clustering algorithm to experimental DNA microarray data centered on the Ras signaling pathway in the yeast Saccharomyces Cerevisiae and compare the results to that obtained with some commonly-used clustering algorithms. Our algorithm comes up favorably against these algorithms in the aspects of intra-cluster similarity and inter-cluster dissimilarity, often considered two key tenets of clustering. Furthermore, our algorithmcan predict the optimal number of clusters, and the biological coherence of the predicted clusters is analyzed through gene ontology.


    Chapter 8 Classification

    Imagine you have RNA-seq of a collection of labeled normal lung and lung cancer tissues. Given a new sample of RNA-seq from the lung with unknown diagnosis, will you be able to predict based on the existing labeled samples and the expression data whether the new sample is normal or tumor? This is a sample classification problem, and it could be solved using unsupervised et supervised learning approaches.

    Apprentissage non supervisé is basically clustering or dimension reduction. You can use hierarchical clustering, MDS, or PCA. After clustering and projection the data to lower dimensions, you examine the labels of the known samples (hopefully they cluster into separate groups by the label). Then you can assign label to the unknown sample based on its distance to the known samples.

    Enseignement supervisé considers the labels with known samples and tries to identify features that can separate the samples by the label. Cross validation is conducted to evaluate the performance of different approaches and avoid over fitting.

    StatQuest has done an amazing job with machine learning with a full playlist of well organized videos. While the full playlist is worth a full course, for the purpose of the course, we will just highlight a number of widely used approaches. They include logistic regression (this is considered statistical machine learning), K nearest neighbors, random forest, and support vector machine (these are considered computer science machine learning).


    TimesVector: a vectorized clustering approach to the analysis of time series transcriptome data from multiple phenotypes

    Motivation: Identifying biologically meaningful gene expression patterns from time series gene expression data is important to understand the underlying biological mechanisms. To identify significantly perturbed gene sets between different phenotypes, analysis of time series transcriptome data requires consideration of time and sample dimensions. Thus, the analysis of such time series data seeks to search gene sets that exhibit similar or different expression patterns between two or more sample conditions, constituting the three-dimensional data, i.e. gene-time-condition. Computational complexity for analyzing such data is very high, compared to the already difficult NP-hard two dimensional biclustering algorithms. Because of this challenge, traditional time series clustering algorithms are designed to capture co-expressed genes with similar expression pattern in two sample conditions.

    Résultats: We present a triclustering algorithm, TimesVector, specifically designed for clustering three-dimensional time series data to capture distinctively similar or different gene expression patterns between two or more sample conditions. TimesVector identifies clusters with distinctive expression patterns in three steps: (i) dimension reduction and clustering of time-condition concatenated vectors, (ii) post-processing clusters for detecting similar and distinct expression patterns and (iii) rescuing genes from unclassified clusters. Using four sets of time series gene expression data, generated by both microarray and high throughput sequencing platforms, we demonstrated that TimesVector successfully detected biologically meaningful clusters of high quality. TimesVector improved the clustering quality compared to existing triclustering tools and only TimesVector detected clusters with differential expression patterns across conditions successfully.

    Disponibilité et mise en œuvre : The TimesVector software is available at http://biohealth.snu.ac.kr/software/TimesVector/.

    Contact: [email protected]

    Information supplémentaire: Des données supplémentaires sont disponibles sur Bioinformatique en ligne.


    15.3: Clustering Algorithms - Biology

    Localized Multiple Kernel k-Means Clustering

    Use Git or checkout with SVN using the web URL.

    Work fast with our official CLI. Apprendre encore plus.

    Launching GitHub Desktop

    If nothing happens, download GitHub Desktop and try again.

    Launching GitHub Desktop

    If nothing happens, download GitHub Desktop and try again.

    Launching Xcode

    If nothing happens, download Xcode and try again.

    Launching Visual Studio Code

    Your codespace will open once ready.

    There was a problem preparing your codespace, please try again.


    Voir la vidéo: Unsupervised Learning. Clustering and Association Algorithms in Machine Learning. @edureka! (Décembre 2022).