Informations

$F_{ST}$ est-il une probabilité et un coefficient de corrélation ?

$F_{ST}$ est-il une probabilité et un coefficient de corrélation ?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

$F_{ST}$ est l'une des statistiques les plus célèbres et les plus importantes de toute la biologie évolutive. Pourtant, beaucoup de gens le comprennent mal ou abusent des résultats classiques de la littérature sur $F_{ST}$ (Whitlock et McCaughley, 1999).

Indice de fixation dans le modèle des îles infinies

Dans une population panmictique, la probabilité d'identité par descendance $F(t)$ à la génération $t$ est la probabilité d'échantillonner deux fois le même allèle plus la probabilité de ne pas échantillonner le même allèle multipliée par la probabilité d'identité par descendance dans la la génération précédente

$$F(t) = frac{1}{2N} + left(1-frac{1}{2N} ight) F(t-1)$$

, où $N$ est la taille de la population. Ici, je suppose une population diploïde et aucune mutation. Dans un modèle d'allèle infini, ces probabilités doivent être pondérées par la probabilité qu'aucun des parents n'ait migré dans la génération précédente.

$$F(t) = (1-m)^2left(frac{1}{2N} + left(1-frac{1}{2N} ight) F(t-1) ight )$$

, où $m$ est le taux de migration entre deux dèmes. Définir $F(t) = F(t-1) = hat F = F_{ST}$, en supposant que $m$ est faible et en résolvant $F_{ST}$ revient au résultat classique de Sewall Wright

$$F_{ST} = frac{1}{1+4Nm}$$

Définitions de $F_{ST}$

$F_{ST}$ a été défini par S. Wright comme

$$F_{ST} = frac{var(p)}{ar p(1-ar p)}$$

, où $var(p)$ est la variance de la fréquence allélique parmi la population et $ar p$ est la fréquence allélique moyenne globale.

De Nei (1973)

Wright a montré que la variation de la fréquence des gènes parmi les sous-populations peut être analysée par les indices de fixation ou les statistiques F. Il a dérivé la formule $$1 - F_{IT}= (1 - F_{IS}) (l-F_{ST})$$ où FIT et F1s sont les corrélations entre deux gamètes unissant pour produire les individus par rapport à la population totale et par rapport aux sous-populations, respectivement, tandis que $F_{ST}$ est la corrélation entre deux gamètes tirés au hasard dans chaque sous-population. $F_{IT}$ et $F_{IS}$ peuvent devenir négatifs, mais $F_{ST}$ est non négatif.

Question

Dans la dérivation du indice de fixation dans le modèle d'îlot infini, $F_{ST}$ est une probabilité d'identité. Dans la citation de Nei (1973) (et d'autres sources), $F_{ST}$ est présenté comme un coefficient de corrélation. Dans la définition de Wright et Nei, je ne vois pas de relation entre les équations et une probabilité ou un coefficient de corrélation. Pouvez-vous m'aider à clarifier cela?

Par exemple, je m'attendrais à ce que $Eleft[frac{var(p)}{ar p (1-ar p)} ight] ≈ frac{1}{4Nm+1}$, où $ E[X]$ est la valeur attendue de la variable $X$. Pouvez-vous démontrer que cela est vrai?


Coefficient de corrélation de rang de Spearman

Le coefficient de corrélation de rang de Spearman est utilisé pour découvrir la force d'un lien entre deux ensembles de données. Cet exemple examine la force du lien entre le prix d'un article de commodité (une bouteille d'eau de 50cl) et la distance du Musée d'Art Contemporain d'El Raval, Barcelone.

Exemple: L'hypothèse testée est que les prix devraient baisser avec l'éloignement de la zone clé de gentrification entourant le Musée d'Art Contemporain. La ligne suivie est le Transect 2 sur la carte ci-dessous, avec un échantillonnage continu du prix d'une bouteille d'eau de 50cl dans chaque supérette.

Carte pour montrer l'emplacement des gradients environnementaux pour les lignes de transect à El Raval, Barcelone

On pourrait s'attendre à constater que le prix d'une bouteille d'eau diminue à mesure que l'éloignement du Musée d'Art Contemporain augmente. Les loyers plus élevés des propriétés à proximité du musée devraient se traduire par des prix plus élevés dans les magasins.

L'hypothèse peut s'écrire ainsi :

Le prix d'un article de commodité diminue à mesure que la distance par rapport au musée d'art contemporain augmente.

La méthode de recherche scientifique la plus objective consiste toujours à supposer qu'une telle relation prix-distance n'existe pas et à exprimer la hypothèse nulle comme:
il n'y a pas de relation significative entre le prix d'un article de commodité et la distance du Musée d'Art Contemporain.

Après avoir décidé de la formulation de l'hypothèse, vous devez déterminer s'il existe d'autres facteurs susceptibles d'influencer l'étude. Certains facteurs pouvant influencer les prix peuvent inclure :

  • Le type de point de vente. Vous devez être cohérent dans votre choix de point de vente. Par exemple, les bars et les restaurants facturent souvent l'eau beaucoup plus cher qu'un dépanneur. Vous devez décider quel type de prise utiliser et vous y tenir pour toute votre collecte de données.
  • Certains magasins ont des prix différents pour le même article : un prix touristique élevé et un prix local plus bas, dépendant de la perception du client par le commerçant.
  • Les magasins situés à proximité des routes principales peuvent facturer plus que les magasins situés dans les ruelles moins accessibles, en raison des loyers plus élevés exigés pour les sites de vente au détail des routes principales.
  • Les effets de propagation positifs d'autres zones d'embourgeoisement voisines ou de zones d'attraction touristique concurrentes.
  • Les effets de propagation négatifs des zones voisines de délabrement urbain.
  • Des prix plus élevés peuvent être facturés pendant l'été lorsque la demande est moins flexible, ce qui rend les comparaisons saisonnières moins fiables.
  • L'échantillonnage cumulatif peut fausser le gradient prix-distance attendu si plusieurs magasins se regroupent dans une courte zone le long de la ligne de transect suivi d'un écart considérable avant le prochain groupe de points de vente.

Vous devriez mentionner ces facteurs dans votre enquête.

Les données collectées (voir le tableau de données ci-dessous) suggèrent une relation négative assez forte, comme le montre ce graphique en nuage de points :

Graphique en nuage de points pour montrer l'évolution du prix d'un article de commodité en fonction de la distance par rapport au musée d'art contemporain. Survolez l'image pour voir la ligne de tendance.

Le nuage de points montre la possibilité d'une corrélation négative entre les deux variables et la technique de corrélation des rangs de Spearman doit être utilisée pour voir s'il existe effectivement une corrélation et pour tester la force de la relation.

Coefficient de corrélation du rang de Spearman

Une corrélation peut facilement être tracée sous forme de nuage de points, mais le moyen le plus précis de comparer plusieurs paires de données est d'utiliser un test statistique - cela établit si la corrélation est vraiment significative ou si elle aurait pu être le résultat du seul hasard.

Le coefficient de corrélation de rang de Spearman est une technique qui peut être utilisée pour résumer la force et la direction (négative ou positive) d'une relation entre deux variables.

Le résultat sera toujours compris entre 1 et moins 1.

Méthode - calcul du coefficient

  • Créez un tableau à partir de vos données.
  • Classez les deux ensembles de données. Le classement est obtenu en donnant le classement « 1 » au plus grand nombre d'une colonne, « 2 » à la deuxième plus grande valeur et ainsi de suite. La plus petite valeur de la colonne obtiendra le classement le plus bas. Cela doit être fait pour les deux séries de mesures.
  • Les scores ex aequo reçoivent le rang moyen (moyen). Par exemple, les trois scores à égalité de 1 euro dans l'exemple ci-dessous sont classés cinquième par ordre de prix, mais occupent trois positions (cinquième, sixième et septième) dans une hiérarchie de classement de dix. Le rang moyen dans ce cas est calculé comme (5+6+7) × 3 = 6.
  • Trouver la différence dans les rangs (d) : C'est la différence entre les rangs des deux valeurs sur chaque ligne du tableau. Le rang de la deuxième valeur (prix) est soustrait du rang de la première (distance du musée).
  • Carré des différences (d²) Pour supprimer les valeurs négatives puis les additionner (d²).
Épicerie Distance du CAM (m) Distance de classement Prix ​​de la bouteille de 50cl (€) Prix ​​de classement Différence entre les rangs (d)
1 50 10 1.80 2 8 64
2 175 9 1.20 3.5 5.5 30.25
3 270 8 2.00 1 7 49
4 375 7 1.00 6 1 1
5 425 6 1.00 6 0 0
6 580 5 1.20 3.5 1.5 2.25
7 710 4 0.80 9 -5 25
8 790 3 0.60 10 -7 49
9 890 2 1.00 6 -4 16
10 980 1 0.85 8 -7 49
d² = 285,5

Tableau de données : corrélation de rang de Spearman

  • Calculer le coefficient (Rs) en utilisant la formule ci-dessous. La réponse sera toujours comprise entre 1,0 (corrélation positive parfaite) et -1,0 (corrélation négative parfaite).

Lorsqu'elle est écrite en notation mathématique, la formule Spearman Rank ressemble à ceci :

  • Trouvez la valeur de toutes les valeurs d² en additionnant toutes les valeurs de la colonne Différence². Dans notre exemple c'est 285.5. En multipliant cela par 6 donne 1713.
  • Maintenant, pour la ligne du bas de l'équation. La valeur n est le nombre de sites sur lesquels vous avez effectué des mesures. Ceci, dans notre exemple est 10. En substituant ces valeurs en n³ - n nous obtenons 1000 - 10
  • On a maintenant la formule : Rs = 1 - (1713/990) qui donne une valeur pour Rs:

Qu'est-ce que cela Rs valeur de -0,73 moyenne ?

Le plus proche Rs est de +1 ou -1, plus la corrélation probable est forte. Une corrélation positive parfaite est de +1 et une corrélation négative parfaite est de -1. Les Rsune valeur de -0,73 suggère une relation négative assez forte.

Une autre technique est maintenant nécessaire pour tester la importance de la relation.

  • Déterminez les « degrés de liberté » que vous devez utiliser. C'est le nombre de paires dans votre échantillon moins 2 (n-2). Dans l'exemple, c'est 8 (10 - 2).
  • Tracez maintenant votre résultat sur le tableau.
  • S'il est en dessous de la ligne marquée 5%, alors il est possible que votre résultat soit le produit du hasard et que vous deviez rejeter l'hypothèse.
  • S'il est supérieur au seuil de signification de 0,1 %, nous pouvons être sûrs à 99,9 % que la corrélation ne s'est pas produite par hasard.
  • S'il est supérieur à 1%, mais inférieur à 0,1%, vous pouvez dire que vous êtes confiant à 99%.
  • S'il est supérieur à 5 %, mais inférieur à 1 %, vous pouvez dire que vous êtes confiant à 95 % (c'est-à-dire qu'il y a statistiquement une probabilité de 5 % que le résultat soit le fruit du hasard).

Dans l'exemple, la valeur 0,73 donne un niveau de signification légèrement inférieur à 5 %. Cela signifie que la probabilité que la relation que vous avez trouvée soit un événement aléatoire est environ 5 sur 100. Vous êtes certain à 95% que votre hypothèse est correcte. La fiabilité de votre échantillon peut être exprimée en termes de nombre de chercheurs réalisant la même étude que la vôtre obtiendraient les mêmes résultats : 95 sur 100.

Graphique des niveaux de signification pour les coefficients de corrélation du rang de Spearman à l'aide de la méthode de Student t Distribution

  • Le fait que deux variables soient corrélées ne peut rien prouver - seules des recherches supplémentaires peuvent réellement prouver qu'une chose affecte l'autre.
  • La fiabilité des données est liée à la taille de l'échantillon. Plus vous collectez de données, plus votre résultat est fiable.

Cliquez sur Spearman's Rank Signifance Graph pour obtenir une copie vierge du graphique de signification ci-dessus.


Étapes de calcul r

Nous commencerons par lister les étapes du calcul du coefficient de corrélation. Les données avec lesquelles nous travaillons sont des données appariées, dont chaque paire sera notée par (Xje, yje).

  1. Commençons par quelques calculs préliminaires. Les quantités de ces calculs seront utilisées dans les étapes ultérieures de notre calcul de r:
    1. Calculer x̄, la moyenne de toutes les premières coordonnées des données Xje.
    2. Calculer , la moyenne de toutes les deuxièmes coordonnées des données
    3. ouije.
    4. Calculer s X l'écart type de l'échantillon de toutes les premières coordonnées des données Xje.
    5. Calculer s oui l'écart type de l'échantillon de toutes les secondes coordonnées des données ouije.

    Ce processus n'est pas difficile et chaque étape est assez routinière, mais la collecte de toutes ces étapes est assez complexe. Le calcul de l'écart type est assez fastidieux en soi. Mais le calcul du coefficient de corrélation implique non seulement deux écarts types, mais une multitude d'autres opérations.


    Calculer

    La covariance des deux variables en question doit être calculée avant que la corrélation puisse être déterminée. Ensuite, l'écart type de chaque variable est requis. Le coefficient de corrélation est déterminé en divisant la covariance par le produit des écarts types des deux variables.

    L'écart type est une mesure de la dispersion des données par rapport à leur moyenne. La covariance est une mesure de la façon dont deux variables changent ensemble. Cependant, son ampleur est illimitée, il est donc difficile à interpréter. La version normalisée de la statistique est calculée en divisant la covariance par le produit des deux écarts types. C'est le coefficient de corrélation.


    Les corrélations peuvent avoir différents niveaux de force

    Nous avons couvert certaines corrélations générales en tant que

    Bien que ces descriptions soient correctes, toutes les corrélations positives et négatives ne sont pas toutes les mêmes.

    Ces descriptions peuvent également être traduites en nombres. Une valeur de corrélation peut prendre n'importe quelle valeur décimale entre un moins, (-1), et un positif, (+1).

    Les valeurs décimales entre (-1) et (0) sont des corrélations négatives, comme (-0,32).

    Les valeurs décimales entre (0) et (+1) sont des corrélations positives, comme (+0.63).

    Une corrélation zéro parfaite signifie qu'il n'y a pas de corrélation.

    Pour chaque type de corrélation, il existe une gamme de corrélations fortes et de corrélations faibles. Valeurs de corrélation plus près de zéro sont des corrélations plus faibles, tandis que les valeurs plus proche du positif ou du négatif, la corrélation est plus forte.

    Les corrélations fortes montrent des tendances plus évidentes dans les données, tandis que les faibles semblent plus désordonnées. Par exemple, la corrélation positive élevée plus forte ci-dessous ressemble plus à une ligne par rapport à la corrélation positive plus faible et plus faible.

    Des niveaux variables de corrélations positives. Code R.

    De même, les corrélations fortement négatives ont une tendance plus évidente que la corrélation négative plus faible et plus faible.

    Des niveaux variables de corrélations négatives. Code R


    Calculatrice de statistiques : Coefficient de corrélation

    Ce calculateur peut être utilisé pour calculer le coefficient de corrélation de l'échantillon.

    Entrez les valeurs x,y dans la case ci-dessus. Vous pouvez saisir des données dans l'un des deux formats suivants :

    Appuyez sur le bouton « Soumettre les données » pour effectuer le calcul. Le coefficient de corrélation sera affiché si le calcul est réussi. Pour effacer la calculatrice et saisir de nouvelles données, appuyez sur "Réinitialiser".

    Quel est le coefficient de corrélation

    Les Coefficient de corrélation, ou Coefficient de corrélation produit-moment de Pearson (PMCC) est une valeur numérique comprise entre -1 et 1 qui exprime le force de la relation linéaire entre deux variables.Lorsque r est plus proche de 1, cela indique une forte relation positive. Une valeur de 0 indique qu'il n'y a pas de relation. Les valeurs proches de -1 signalent une forte relation négative entre les deux variables. Vous pouvez utiliser la calculatrice de régression linéaire pour visualiser cette relation sur un graphique.

    Formule du coefficient de corrélation

    Il existe de nombreuses formules pour calculer le coefficient de corrélation (elles donnent toutes le même résultat). Cette calculatrice utilise les éléments suivants :

    m est le nombre total d'échantillons, Xje (X1, X2, . ,Xm) sont les valeurs x et yje sont les valeurs y.


    $F_{ST}$ est-il une probabilité et un coefficient de corrélation ? - La biologie

    Analyse de variance (ANOVA) pour comparer les moyennes de trois variables ou plus.

    Utilisez ce test pour comparer les moyennes de 3 échantillons/traitements ou plus, afin d'éviter l'erreur inhérente à l'exécution de plusieurs t-tests

    Fond. Si nous avons, disons, 3 traitements à comparer (A, B, C), alors nous aurions besoin de 3 traitements distincts t-tests (comparer A avec B, A avec C et B avec C). Si nous avions sept traitements, nous aurions besoin de 21 traitements distincts t-tests. Cela prendrait du temps mais, plus important encore, serait fondamentalement défectueux car dans chaque t-test, nous acceptons 5% de chances que notre conclusion soit fausse (lorsque nous testons p = 0,05). Ainsi, en 21 tests, nous attendre (par probabilité) qu'un test nous donnerait un faux résultat. L'Analyse de Variance (ANOVA) pallie ce problème en nous permettant de détecter des différences significatives entre les traitements dans son ensemble. Nous effectuons un seul test pour voir s'il existe des différences entre les moyennes au niveau de probabilité que nous avons choisi.

    Idéalement, pour ce test, nous aurions le même nombre de répétitions pour chaque traitement, mais ce n'est pas indispensable. Les programmes informatiques avancés peuvent surmonter le problème des répétitions inégales en entrant des "valeurs manquantes".

    Une hypothèse importante sous-tend l'Analyse de Variance : que tous les traitements ont une variance similaire. S'il existe de bonnes raisons d'en douter, les données devront peut-être être transformées avant que le test puisse être effectué. En pratique, il existe un moyen simple de vérifier "homogénéité de la variance". Nous traitons cela à l'étape "3" de la procédure ci-dessous.

    Ne soyez pas effrayé par cela ! Cela a l'air compliqué mais c'est en fait très facile. Vous devez le comprendre, puis vous pouvez utiliser un programme statistique simple (par exemple Microsoft "Excel") pour exécuter l'ensemble du test.

    Supposons que nous ayons enregistré la biomasse de 3 bactéries dans des flacons de bouillon de glucose et que nous ayons utilisé 3 flacons répliqués pour chaque bactérie. [Mais le test pourrait s'appliquer également à n'importe quelle sorte de variable]

    Étape 1. Enregistrez les données dans des colonnes :

    Étape 2. Pour chaque colonne, entrez S X, m, , S X 2 , et S 2 (cliquez ici pour la méthode)

    Étape 3. [Un contrôle de variance égale - l'hypothèse sous-jacente de ce test] Pour chaque colonne diviser S 2 par m-1 pour obtenir la variance, s 2 . Divisez la valeur la plus élevée de s 2 par la valeur la plus faible de s 2 pour obtenir un rapport de variance (F). Recherchez ensuite un tableau de Fmax pour le nombre de traitements dans notre table de données et les degrés de liberté (nombre de réplicats par traitement -1). Si notre rapport de variance ne dépasse pas le Fmax valeur, nous pouvons continuer en toute sécurité. Si ce n'est pas le cas, les données peuvent avoir besoin d'être transformées.

    Étape 4. Somme toutes les valeurs de S X 2 et appeler la somme UNE.

    Étape 5. Additionner toutes les valeurs et appeler la somme B.

    Étape 6. Additionner toutes les valeurs de S X pour obtenir le total.

    Étape 7. Faites le carré du total général et divisez-le par le nombre total d'observations, appelez ceci .

    Étape 8. Calculez le Somme totale des carrés (S de S) = A - D

    Étape 9. Calculez le Entre-traitements somme des carrés = B - D

    Étape 10. Calculez le Résiduel somme des carrés = A - B [Ceci est parfois appelé le Erreur somme des carrés]

    Étape 11. Construisez un tableau comme suit, où *** représente les éléments à insérer, et où vous = nombre de traitements et v = nombre de répétitions.

    Source d'écart Somme des carrés
    (S de S)
    Degrés de liberté (df) Carré moyen
    = S de S / df
    Entre les traitements *** u - 1 ***
    Résiduel *** u(v-1) ***
    Le total *** (uv)-1

    [Le total df est toujours un de moins que le nombre total d'entrées de données]

    Étape 12. En utilisant le carrés moyens dans la dernière colonne de ce tableau, faites un test du rapport de variance pour obtenir un F valeur:

    F = Carré moyen entre les traitements / Carré moyen résiduel

    Étape 13. Aller à une table de F (p = 0,05) et lire la valeur où m1 est le df du carré moyen entre les traitements et m2 est df du carré moyen résiduel. Si la valeur F calculée dépasse la valeur tabulée, il existe une différence significative entre les traitements. Si c'est le cas, regardez les valeurs F tabulées pour p = 0,01 puis 0,001, pour voir si les différences de traitement sont plus significatives.

    Si vous regardez plusieurs des étapes ci-dessus, elles devraient vous rappeler les étapes d'un t-test. Par exemple, dans un t-test on calcule S X, S X 2 , et S 2 (qui est le somme des carrés), alors on divise S 2 par n-1, comme nous l'avons fait à l'étape 11 (ci-dessus). Ainsi, l'Analyse de Variance utilise les mêmes types de procédure, mais pour plus de 2 échantillons. Si vous voulez vous en convaincre, essayez de faire l'analyse de la variance pour seulement deux échantillons (par exemple, la bactérie A et la bactérie B). Vous obtiendrez exactement le même résultat que dans un t-test.

    Reproduire Bactérie A Bactérie B Bactérie C Totaux des lignes
    1 12 20 40 72
    2 15 19 35 69
    3 9 23 42 74
    S X 36 62 117 215 (total général)
    m 3 3 3
    12 20.7 39
    S X 2 450 1290 4589 6329 (appelez ceci UNE)
    432 1281.3 4563 6276.3 (appelez ceci B)
    S 2 18 8.7 26 52.7 (UN B)
    s 2 (= S 2 /n-1) 9.4 35 13

    Fmax test: F = 13/4,35 = 2,99. C'est plus bas que le Fmax de 87,5 (pour 3 soins et 2 df, à p = 0,05) donc les variances sont homogènes et on peut procéder à l'analyse de variance. Si notre valeur dépassait le F tabulémax alors nous aurions besoin de transformer les données.

    = (total général) 2 observations totales = 2152 9 = 5136,1

    Somme totale des carrés (S de S) = UN D = 1192.9

    Entre-traitements S de S = B-D = 1140.2

    S résiduel de S = UN B = 52.7

    Source d'écart Somme des carrés
    (S de S)
    Degrés de liberté * Carré moyen
    (= S de S df)
    Entre les traitements 1140.2 vous - 1 (=2)* 570.1
    Résiduel 52.7 vous(v-1) (=6)* 8.78
    Le total 1192.9 (uv)-1 (=8)*

    [* Pour vous traitements (3 dans notre cas) et v réplique (3 dans notre cas) le df total est un de moins que le nombre total de valeurs de données dans la table (9 valeurs dans notre cas)]

    F = Carré moyen entre les traitements /Carré moyen résiduel = 570.1 / 8.78 = 64.93

    La valeur tabulée de F (p = 0,05) où vous est df entre le carré moyen des traitements (2) et v est df du carré moyen résiduel (6) est de 5,1. Notre valeur F calculée dépasse cela et dépasse même la valeur F tabulée pour p = 0,001 (F = 27,0). Il y a donc une différence très hautement significative entre les traitements.

    [Notez que le terme "carré moyen" dans une analyse de la variance est en fait un variance - il se calcule en divisant la somme des carrés par les degrés de liberté. Dans un t-test on l'appellerait s 2 , obtenu en divisant S 2 par n-1. L'analyse de la variance implique le partitionnement de la variance totale en (1) la variance associée aux différents traitements/échantillons et (2) la variance aléatoire, mise en évidence par la variabilité au sein des traitements. Lorsque l'on calcule la valeur F, on se demande en effet "y a-t-il une grande quantité de variance associée aux différents traitements par rapport à la quantité de variance aléatoire ?"]

    L'analyse de la variance nous a dit seul qu'il existe des différences entre les traitements dans l'ensemble de l'expérience. Parfois, ces informations sont utiles en elles-mêmes. Mais cela ne nous dit pas quels traitements diffèrent les uns des autres.

    Nous avons maintenant un problème, car chaque fois que nous comparons un traitement à un autre (par exemple, comparer la bactérie A avec la bactérie B) nous faisons l'équivalent d'un t-test, avec une probabilité de faire une mauvaise interprétation. Nous avons besoin d'un moyen d'éviter ce problème.

    Méthode 1. Calculez le différence la moins significative entre deux moyens quelconques. [C'est pas généralement favorisé, mais il peut être utilisé avec avertir.]

    Nous utilisons le fait que nos calculs pour l'analyse de la variance étaient similaires à ceux d'un t-test (voir plus haut) en particulier, le carré moyen résiduel est une estimation de s 2 pour chaque traitement, car la variance pour tous les traitements est supposée égale dans une analyse de variance.

    Dans le t-test, on calcule s 2 comme suit :

    Dans l'analyse de la variance, s 2 pour chaque traitement est supposé être le même, et si m pour chaque traitement est le même, alors nous pourrions comparer tout deux moyens en calculant s 2 comme suit :

    s 2 = 2 x carré moyen résiduel / n

    On peut alors trouver s comme racine carrée de s 2 et calculer t comme:

    Si nous faisions cela pour deux moyens particuliers, nous pourrions comparer le calcul t avec ça dans un t-table, en utilisant le df du carré moyen résiduel (car cela reflète la variance résiduelle dans l'ensemble de l'expérience).

    Il existe une manière plus simple de procéder pour deux moyens quelconques:

    Si nous prenons l'équation et multiplions chaque côté par s on obtient : t ( s ) = 1 - 2

    En d'autres termes, deux moyens quelconques seraient significativement différents les uns des autres s'ils diffèrent de plus de "t multiplié par s "

    Donc t( s ) représente le différence la moins significative (LSD) entre deux moyens quelconques.

    Dans les articles scientifiques, vous pouvez voir des données présentées comme suit :

    Ici, l'auteur nous donnerait les moyennes des 3 traitements (bactéries) et nous dirait que l'analyse de la variance a été utilisée pour trouver la différence la moins significative entre n'importe laquelle des moyennes à p = 0,05 (le niveau de probabilité choisi pour le t valeur).

    En fait, le tableau ci-dessus utilise les données pour la biomasse bactérienne dans notre exemple travaillé.

    Pour 5% de LSD, on trouve s 2 (= 2 x carré moyen résiduel / m). C'est 17,56 /3 = 5,85.

    On fait la racine carrée pour trouver s = 2.42.

    La valeur tabulée de t pour 6 df (du carré moyen résiduel) est de 2,45 (p = 0.05).

    Donc le LSD à 5% est t(s ) = 2,45 x 2,42 = 5,92.

    Notre tableau de données indique que chaque bactérie a produit une biomasse significativement différente des autres.

    Un mot d'avertissement: Nous pouvons être beaucoup plus confiants quant à la différence significative entre les bactéries 1 et 3 ou entre les bactéries 2 et 3 que sur la différence entre les bactéries 1 et 2. N'oubliez pas que chaque fois que nous faisons une telle comparaison, nous courons le risque d'une erreur de 5 %. Mais si nous avions utilisé le t la valeur pour p = 0,01 alors nous pourrions faire cinq comparaisons avec plus de sécurité et n'avoir encore qu'une chance sur 20 de se tromper.

    Les statisticiens recommandent que le LSD ne doit jamais être utilisé sans discernement, mais uniquement pour tester les comparaisons entre les traitements que nous avons "nommés" lors de la conception de l'expérience. Par exemple, chaque traitement peut être comparé à un témoin, mais chaque traitement ne doit pas nécessairement être comparé entre eux.

    Méthode 2. De nombreuses personnes utilisent maintenant des variantes du LSD, comme un Test à plusieurs gammes, ce qui nous permet de comparer en toute sécurité tous les traitements dans un tableau. Ce test est de loin préférable au LSD. Il est expliqué séparément sur une autre page.

    L'exemple que nous avons utilisé (biomasse bactérienne) ci-dessus est présenté ci-dessous sous forme d'impression à partir de "Excel".

    Après avoir entré les données sur la feuille de calcul, nous sélectionnons Anova : facteur unique depuis les outils d'analyse, cliquez sur d'accord, et entrez les 9 cellules de données dans Plage de variables d'entrée. Le tableau montre la source de la variance sous la forme "Entre groupes" (= entre les traitements) et "Au sein des groupes" (= résiduel). On nous dit également la valeur F calculée (64,949..), la valeur F qu'il faudrait dépasser (F critique) pour avoir une différence significative entre les traitements, et la probabilité (valeur p) que notre valeur F calculée serait obtenu par hasard (erreur aléatoire) seul. Cette probabilité est très faible (8,61 x 10 -5 ), nous avons donc une différence hautement significative entre les traitements dans notre tableau. Nous pourrions ensuite utiliser le carré moyen (MS) résiduel (à l'intérieur des groupes) pour calculer le LSD, comme expliqué précédemment.


    Corrélation

    Sur un diagramme de dispersion, plus les points sont proches d'une ligne droite, plus la relation linéaire entre deux variables est forte. Pour quantifier la force de la relation, nous pouvons calculer le coefficient de corrélation. En notation algébrique, si l'on a deux variables x et y, et que les données prennent la forme de n paires (i.e. [x1, oui1], [X2, oui2], [X3, oui3] . [Xm, ouim]), alors le coefficient de corrélation est donné par l'équation suivante :

    où est la moyenne des valeurs x, et est la moyenne des valeurs y.

    C'est le coefficient de corrélation du moment produit (ou coefficient de corrélation de Pearson). La valeur de r est toujours comprise entre -1 et +1. Une valeur du coefficient de corrélation proche de +1 indique une forte relation linéaire positive (c'est-à-dire qu'une variable augmente avec l'autre Fig. ​ Fig.2). 2 ). Une valeur proche de -1 indique une forte relation linéaire négative (c'est-à-dire qu'une variable diminue à mesure que l'autre augmente Fig. ​ Fig.3). 3 ). Une valeur proche de 0 n'indique aucune relation linéaire (Fig. ​ (Fig.4) 4 ) cependant, il pourrait y avoir une relation non linéaire entre les variables (Fig. ​ (Fig.5 5 ).

    Coefficient de corrélation (r) = +0,9. Relation linéaire positive.

    Coefficient de corrélation (r) = -0,9. Relation linéaire négative.

    Coefficient de corrélation (r) = 0,04. Pas de relation.

    Coefficient de corrélation (r) = -0,03. Relation non linéaire.

    Pour les données Aɮ, le coefficient de corrélation est de 0,62, indiquant une relation linéaire positive modérée entre les deux variables.

    Test d'hypothèse de corrélation

    Nous pouvons utiliser le coefficient de corrélation pour tester s'il existe une relation linéaire entre les variables dans l'ensemble de la population. L'hypothèse nulle est que le coefficient de corrélation de population est égal à 0. La valeur de r peut être comparée à celles données dans le tableau ​ Tableau2, 2 , ou bien exacte P les valeurs peuvent être obtenues à partir de la plupart des progiciels statistiques. Pour les données Aɮ, r = 0,62 avec une taille d'échantillon de 20 est supérieur à la valeur en gras dans le tableau ​ Tableau2 2 pour P = 0,01, indiquant un P valeur inférieure à 0,01. Par conséquent, il existe suffisamment de preuves pour suggérer que le véritable coefficient de corrélation de la population n'est pas 0 et qu'il existe une relation linéaire entre l'urée et l'âge.

    Tableau 2

    5 % et 1 % des points pour la distribution du coefficient de corrélation sous l'hypothèse nulle que la corrélation de population est de 0 dans un test bilatéral

    valeurs r pour les probabilités bilatérales (P) Probabilités bilatérales (P)
    Taille de l'échantillon0.050.01Taille de l'échantillon0.050.01
    31.001.00230.410.53
    40.950.99240.400.52
    50.880.96250.400.51
    60.810.92260.390.50
    70.750.87270.380.49
    80.710.83280.370.48
    90.670.80290.370.47
    100.630.76300.360.46
    110.600.73400.310.40
    120.580.71500.280.36
    130.550.68600.250.33
    140.530.66700.240.31
    150.510.64800.220.29
    160.500.62900.210.27
    170.480.611000.200.26
    180.470.591100.190.24
    190.460.581200.180.23
    200.440.561300.170.23
    210.430.551400.170.22
    220.420.541500.160.21

    Généré à l'aide de la formule standard [2].

    Intervalle de confiance pour le coefficient de corrélation de population

    Bien que le test d'hypothèse indique s'il existe une relation linéaire, il ne donne aucune indication de la force de cette relation. Cette information supplémentaire peut être obtenue à partir d'un intervalle de confiance pour le coefficient de corrélation de la population.

    Pour calculer un intervalle de confiance, r doit être transformé pour donner une distribution normale en utilisant la transformation z de Fisher [2] :

    L'erreur standard [3] de zr est d'environ:

    et donc un intervalle de confiance de 95 % pour la vraie valeur de la population pour le coefficient de corrélation transformé zr est donné par zr - (erreur standard de 1,96 ×) à zr + (erreur standard de 1,96 ×). Parce que zr est Normalement distribué, 1,96 écarts par rapport à la statistique donneront un intervalle de confiance de 95 %.

    Pour les données Aɮ, le coefficient de corrélation transformé zr entre l'urée et l'âge est :

    L'erreur standard de zr est:

    L'intervalle de confiance à 95% pour zr est donc de 0,725 - (1,96 × 0,242) à 0,725 + (1,96 × 0,242), ce qui donne 0,251 à 1,199.

    Il faut utiliser l'inverse de la transformation de Fisher sur les bornes inférieure et supérieure de cet intervalle de confiance pour obtenir l'intervalle de confiance à 95 % pour le coefficient de corrélation. La limite inférieure est :

    donnant 0,25 et la limite supérieure est :

    donnant 0,83. Par conséquent, nous sommes convaincus à 95 % que le coefficient de corrélation de la population se situe entre 0,25 et 0,83.

    La largeur de l'intervalle de confiance dépend clairement de la taille de l'échantillon, et il est donc possible de calculer la taille de l'échantillon requise pour un niveau de précision donné. Pour un exemple, voir Bland [4].

    Utilisation abusive de la corrélation

    Il existe un certain nombre de situations courantes dans lesquelles le coefficient de corrélation peut être mal interprété.

    L'une des erreurs les plus courantes dans l'interprétation du coefficient de corrélation est de ne pas considérer qu'il peut y avoir une troisième variable liée aux deux variables étudiées, qui est responsable de la corrélation apparente. Corrélation ne signifie pas causalité. Pour renforcer les arguments en faveur de la causalité, il faut tenir compte d'autres variables sous-jacentes possibles et déterminer si la relation est valable dans d'autres populations.

    Une relation non linéaire peut exister entre deux variables qui seraient insuffisamment décrites, voire non détectées, par le coefficient de corrélation.

    Un ensemble de données peut parfois comprendre des sous-groupes distincts, par exemple des hommes et des femmes. Cela pourrait entraîner des grappes de points conduisant à un coefficient de corrélation gonflé (Fig. ​ (Fig.6). 6). Une seule valeur aberrante peut produire le même type d'effet.

    Sous-groupes dans les données résultant en une corrélation trompeuse. Toutes les données : r = 0,57 hommes : r = -0,41 femmes : r = -0,26.

    Il est important que les valeurs d'une variable ne soient pas déterminées à l'avance ou limitées à une certaine plage. Cela peut conduire à une estimation invalide du vrai coefficient de corrélation car les sujets ne sont pas un échantillon aléatoire.

    Une autre situation dans laquelle un coefficient de corrélation est parfois mal interprété est la comparaison de deux méthodes de mesure. Une corrélation élevée peut être interprétée à tort comme signifiant qu'il existe un accord entre les deux méthodes. Une analyse qui étudie les différences entre les paires d'observations, comme celle formulée par Bland et Altman [5], est plus appropriée.


    Le coefficient de corrélation de rang de Spearman est une mesure non paramétrique de corrélation de rang (dépendance statistique du classement entre deux variables).

    Nommé d'après Charles Spearman, il est souvent désigné par la lettre grecque ‘ρ’ (rho) et est principalement utilisé pour l'analyse des données.

    Il mesure la force et la direction de l'association entre deux variables classées. Mais avant de parler du coefficient de corrélation de Spearman, il est important de comprendre d'abord la corrélation de Pearson. Une corrélation de Pearson est une mesure statistique de la force d'une relation linéaire entre des données appariées.

    Pour le calcul et le test de signification de la variable de classement, l'hypothèse de données suivante doit être vérifiée :

    Si vos données ne répondent pas aux hypothèses ci-dessus, vous auriez besoin du coefficient de Spearman. Il est nécessaire de savoir ce qu'est la fonction monotone pour comprendre le coefficient de corrélation de Spearman. A monotonic function is one that either never decreases or never increases as it is an independent variable increase. A monotonic function can be explained using the image below:

    The image explains three concepts in monotonic function:

    1. Monotonically increasing: When the ‘x’ variable increases and the ‘y’ variable never decreases.
    2. Monotonically decreasing: When the ‘x’ variable increases but the ‘y’ variable never increases
    3. Not monotonic: When the ‘x’ variable increases and the ‘y’ variable sometimes increases and sometimes decreases.

    Monotonic relation is less restrictive when compared to a linear relationship that is used in Pearson’s coefficient. Although monotonicity is not the ultimate requirement for Spearman correlation coefficient, it will not be meaningful to pursue Spearman’s correlation without actually determining the strength and direction of a monotonic relationship if it was already known that the relationship between the variable is non-monotonic.

    Spearman correlation coefficient: Formula and Calculation with Example

    Ici,

    m= number of data points of the two variables

    di= difference in ranks of the “ith” element

    The Spearman Coefficient,⍴, can take a value between +1 to -1 where,

    • A ⍴ value of +1 means a perfect association of rank
    • A ⍴ value of 0 means no association of ranks
    • A ⍴ value of -1 means a perfect negative association between ranks.

    Closer the ⍴ value to 0, weaker is the association between the two ranks.

    We must be able to rank the data before proceeding with the Spearman’s Rank Coefficient of Correlation. It is important to observe if increasing one variable, the other variable follows a monotonic relation.

    At every level, you will need to compare the values of the two variables. Here is how the calculations work:

    The scores of 9 students in History and Geography are mentioned in the table below.

    Step 1- Create a table of the data obtained.

    Step 2- Start by ranking the two data sets. Data ranking can be achieved by assigning the ranking “1” to the biggest number in the column, “2” to the second biggest number and so forth. The smallest value will usually get the lowest ranking. This should be done for both sets of measurements.

    Step 3- Add a third column d to your data set, d here denotes the difference between ranks. For example, if the first student’s physics rank is 3 and the math rank is 5 then the difference in the rank is 3. In the fourth column, square your valeurs.

    Histoire Rang Géographie Rang d square
    35 3 30 5 2 4
    23 5 33 3 2 4
    47 1 45 2 1 1
    17 6 23 6 0 0
    10 7 8 8 1 1
    43 2 49 1 1 1
    9 8 12 7 1 1
    6 9 4 9 0 0
    28 4 31 4 0 0
    12

    Step 4- Add up all your square values, which is 12 (∑d square)

    Step 5- Insert these values in the formula

    The Spearman’s Rank Correlation for this data is 0.9 and as mentioned above if the value is nearing +1 then they have a perfect association of rank.

    How to Conduct a Spearman correlation coefficient with QuestionPro

    In this section, you will learn how you can run Spearman’s Rank Coefficient of Correlation for your survey.

    Étape 1: Go to My Surveys →Select Survey→Analytics

    Étape 2: Click on Correlational Analysis under Analysis


    Étape 3: Click on Generate Spearman Coefficient button to get a detailed report


    In the above example, the Spearman coefficient of correlation is used to find out the relationship between the two variables, Work experience and Monthly income. A general notion is, monthly income should increase with the work experience, which means there should be a positive association between the two variables which is proved by the rs value which is 0.97


    Remerciements

    We thank the Ministère de la Région Wallonne for capture licences, nature conservation associations for granting site access, L Dhondt and A Snirc for help with lab work, and three anonymous reviewers for improving the manuscript through their constructive comments. SV and MB acknowledge grant BELSPO-PADDII EV10/26A and SV acknowledges grant FRFC 2.4595.07 for support. SV is postdoctoral researcher and NS research associate of the Fund for Scientific Research – FNRS. This is publication BRC125 of the Biodiversity Research Centre at Université catholique de Louvain.


    Voir la vidéo: Maailman vaarallisimmat tykistöasejärjestelmät! (Janvier 2023).