Question:
Les phénomènes biologiques suivent-ils les statistiques gaussiennes?
irritable_phd_syndrom
2015-08-25 18:46:40 UTC
view on stackexchange narkive permalink

Je suis récemment entré dans les sciences de la vie (de la physique). Je suis préoccupé par l'utilisation des valeurs p dans la littérature des sciences de la vie. Par exemple, dans cet article, ils testent 9 à 12 rats dans un groupe témoin et le comparent à un groupe expérimental. Ils utilisent des valeurs p pour affirmer que leurs résultats sont statistiquement significatifs. Ce type d'utilisation des valeurs p semble être très courant dans la littérature.

Voici donc mes préoccupations:

  1. Pourquoi est-il si souvent supposé que les mesures biologiques suivent une distribution normale? À ma connaissance, cela n'est pas connu a priori .

  2. D'après mon intuition physique, il semble assez difficile de revendiquer une "signification statistique" lors de l'utilisation des échantillons de petite taille.

Oui, si / quand vous pouvez appliquer le théorème de la limite centrale. Des choses comme la masse corporelle / taille, etc. sont influencées par de nombreux facteurs atomiques relativement indépendants, vous pouvez donc appliquer le théorème. Mais ne vous trompez pas en pensant que la distribution normale est tout ce que nous avons en biologie. Les distributions binomiale, Poisson, bêta et gamma sont très courantes en génétique et en bioinformatique.
** 1) ** c'est vraiment une question empirique; parfois c'est le cas, parfois non. Même si le processus "réel" est poisson, une distribution normale peut encore être une approximation assez précise. ** 2) ** La «signification» fondée sur l'intuition et le concept technique de «signification statistique» doivent être clairement séparés. Si les hypothèses sont satisfaites, une analyse peut produire des résultats statistiquement significatifs, tout en étant faible avec des résultats plutôt incertains.
Un scepticisme sain est une bonne chose, en particulier dans la recherche biologique. Rappelez-vous également qu'en biologie, les modèles sont souvent des approximations imparfaites des questions étudiées. Cela ne veut pas dire qu'ils ne sont pas les meilleurs que nous puissions faire étant donné les limites actuelles de la technologie, mais c'est quelque chose à toujours garder à l'esprit lorsque vous lisez des publications biologiques. Il existe d'innombrables exemples ou études qui ont produit des résultats significatifs chez les rongeurs mais qui se sont effondrés lors d'essais humains. En outre, les cultures de tissus in vitro peuvent être remplies d'hypothèses qui ne peuvent pas être extrapolées à l'organisme.
Les réponses à cette question sont justes, mais quelqu'un me manque qui mentionne qu'il existe des tests pour évaluer si vos données suivent une distribution normale, bien que ces tests ne soient pas puissants si votre échantillon est petit.
Trois réponses:
WYSIWYG
2015-08-26 10:31:49 UTC
view on stackexchange narkive permalink

La réponse de kmm est correcte; Je veux juste ajouter quelques-uns de mes points sur le type de données qui doivent suivre une distribution gaussienne.


À moins que vous ne sachiez par observation qu'un processus ne suit pas une distribution gaussienne (par exemple, Poisson, binomial, etc.), alors cela fonctionne probablement au moins assez bien à des fins statistiques.

Je ne blâmerai pas kmm pour cette déclaration parce que ce qu'ils ont dit est ce qui se passe le plus souvent. C'est pratiquement ce que font tous les biologistes, mais c'est une approche incorrecte .

Gaussien ne doit pas être considéré comme une distribution par défaut. Cela peut conduire à des inférences incorrectes. Habituellement, l'expérimentateur a une idée du type de données qu'il mesure et de la distribution que les données sont susceptibles de suivre. Si vous n'êtes pas sûr de la distribution sous-jacente, optez pour des tests statistiques non paramétriques .


Quels types de données suivent la distribution gaussienne?

Selon le théorème central des limites, la distribution de la moyenne (valeur attendue) ou somme de plusieurs échantillons de variables aléatoires indépendantes et distribuées de manière identique ( IID ) suivraient la distribution gaussienne. La variable aléatoire elle-même peut suivre n'importe quelle distribution, mais si vous mesurez la moyenne plusieurs fois en utilisant des expériences répétées, la distribution de la moyenne serait gaussienne.

Depuis le site Wolfram:

Soit $ X_1, X_2, ..., X_N $ un ensemble de N variables aléatoires indépendantes et chaque $ X_i $ a une distribution de probabilité arbitraire $ P (x_1, ..., x_N) $ avec une moyenne $ \ mu_i $ et une variance finie $ \ sigma_i ^ 2 $. Alors la forme normale varie:

$$ X_ {norm} = \ frac {\ displaystyle \ sum_ {i = 1} ^ N x_i- \ sum_ {i = 1} ^ N \ mu_i} {\ sqrt {\ displaystyle \ sum_ {i = 1} ^ N \ sigma_i ^ 2}} $$

a une fonction de distribution cumulative limite qui se rapproche d'une distribution normale.

La page wikipedia sur CLT est également assez bonne. Vous pouvez aussi y jeter un œil.

Habituellement, dans les expériences biologiques, nous mesurons certaines propriétés, disons l'expression d'un gène. Lorsque vous effectuez plusieurs réplications et qu'il n'y a pas de mécanisme sous-jacent spécifique qui générerait une variation (c'est-à-dire que les erreurs sont purement aléatoires), vous obtiendrez des valeurs normalement distribuées. Notez que cela s'applique uniquement aux moyennes de l'échantillon. Dans certains cas, nous supposons que la variation de la valeur d'une variable est due à une fluctuation aléatoire et considérons donc que ces variables sont normalement distribuées (pas leurs moyennes mais les valeurs elles-mêmes); par exemple le poids des souris nourries et élevées de manière égale. Ceci est juste votre hypothèse qui constitue l'hypothèse nulle.

Un autre point à noter est que la variable qui devrait suivre la distribution normale doit essentiellement être continue dans la nature. Certaines variables discrètes peuvent être approximées comme continues, mais il faut avoir un bon raisonnement pour le faire. Par exemple, les tailles de population, bien que discrètes, peuvent être supposées continues si les tailles sont importantes.


La distribution de Poisson est unique et est une distribution discrète. Certains types de phénomènes aboutissent à des RV distribués de Poisson. Ces phénomènes devraient essentiellement être des processus de Poisson. Consultez ce message pour plus de détails. La distribution de Poisson modélise fondamentalement la probabilité d'événements N dans un intervalle de temps donné pour un taux d'événements donné ($ \ lambda $). Ce taux est également appelé intensité de la distribution.


Binomial est une autre distribution discrète unique. Les génotypes résultant de la ségrégation mendélienne des gènes, par exemple, suivent cette distribution. Il modélise essentiellement la probabilité d'un N nombre d'événements dans certains M essais. Dans la distribution binomiale, il n'y a que deux résultats possibles. La distribution multinomiale est une généralisation de la distribution binomiale avec des résultats multiples.


Puisque Poisson et Binomial sont des distributions discrètes, ils ne doivent pas être confondus avec une distribution normale. Cependant, dans certaines conditions, en particulier lorsque le nombre d'essais dans la distribution binomiale est élevé et la probabilité binomiale = 0,5, alors il peut être approximé comme un gaussien avec la même valeur de moments. De même, si l'intensité (taux) de la distribution de Poisson est élevée ou si l'intervalle de temps est grand, la distribution du RV de Poisson peut être approximée à Gauss (avec la même valeur de moments). Dans ces cas, la valeur de la moyenne augmente considérablement, permettant ainsi une approximation continue.

De nombreux ensembles de données montrent des distributions normales de type loi de puissance / asymétriques et les gens font souvent l'erreur de les supposer normales. Un exemple (de mon expérience) est l'expression de tous les gènes d'une cellule. Très peu de gènes ont une expression élevée et de nombreux gènes ont une faible expression. Ceci s'applique également à la distribution en degrés des nœuds dans certains réseaux réels tels que le réseau de régulation des gènes.


En résumé, vous devez supposer une distribution gaussienne lorsque:

  • La variable est un mesure d'une valeur répétée plusieurs fois à partir d ' échantillons identiques
  • La variabilité devrait être aléatoire dans le cas de contrôle (dans le test t, lorsque vous rejetez l'hypothèse nulle vous dites en fait qu'une certaine variable ne suit pas la distribution normale supposée sous l'hypothèse nulle)
  • La variable est continue ou discrète avec une grande taille d'échantillon
kmm
2015-08-25 19:31:38 UTC
view on stackexchange narkive permalink

Vous soulevez deux problèmes, qui pourraient tous deux être mieux adaptés à stats.SE, mais je pense que les questions sont suffisamment biologiques pour justifier une réponse ici.

La plupart des processus biologiques suivent-ils une distribution gaussienne?

À moins que vous ne sachiez par observation qu'un processus ne suit pas une distribution gaussienne (par exemple, Poisson, binôme, etc.), alors il fait probablement au moins assez bien à des fins statistiques. Bien que ~ 10 observations ne soient pas suffisantes pour tester la distribution avec précision (et ces tests sont de toute façon assez imparfaits), tant que les valeurs sont à peu près normalement distribuées, vous répondez probablement aux hypothèses du test statistique de type modèle linéaire le plus général (t -test, ANOVA, régression linéaire). Ces tests sont assez robustes aux écarts par rapport à la normalité, donc dans un sens, tant que les valeurs sont suffisamment proches de la normale, le test est correct (ce qui ne dit rien sur l'interprétation des résultats).

Est l'utilisation généralisée des valeurs p est-elle justifiée? Y a-t-il un problème avec des échantillons de petite taille?

Bien que ce ne soit certainement pas le premier à sonner l'alarme sur les valeurs p, l'article de Ioannidis (2005) a sonné le plus fort. L'idée centrale est qu'en science, il existe une forte tendance à ne publier que les résultats «significatifs» (quelle que soit la définition de signification que vous utilisez). Ainsi, la littérature regorge de faux résultats significatifs. Par exemple, si seulement 1 expérience sur 20 donne des résultats significatifs, les 19 autres ne seront probablement pas publiées. Pourtant, ces 5% pourraient représenter 95% de la littérature, et nous avons donc un fort biais dans la littérature. Tous ces résultats "significatifs" ne peuvent pas être corrects.

L'inférence statistique à partir de petits échantillons est également assez problématique (par exemple, en neuroscience; Button et al., 2013 ). Il y a eu une tendance récente à inclure les tailles d'effet pour les paramètres estimés et à simplement signaler les intervalles de confiance (qui seront suffisamment larges pour les petits échantillons).

La plupart des échecs des statistiques sont résumés dans Statistics Done Wrong: Le guide terriblement complet , auquel je n'ai aucune affiliation, sauf que j'ai aimé le lire .

Le document que vous liez est assez insuffisant dans ce que vous pourriez appeler l'analyse statistique moderne. Ce qu'ils pourraient améliorer:

  • Exécutez (et montrez les résultats de) une analyse de puissance a priori pour établir que la taille de leurs échantillons est adéquate
  • Incluez les tailles d'effet des paramètres estimés
  • Inclure des intervalles de confiance pour les paramètres estimés
  • Utilisez l'une des nombreuses procédures de comparaisons multiples disponibles pour contrôler les taux d'erreur de type I au niveau de la famille.

sur les critiques d'articles pour demander ces choses si les auteurs ne les fournissent pas volontairement.

Il n'y a aucun moyen de contourner la petite taille de l'échantillon dans de nombreuses études, il est donc possible qu'ils ne puissent pas faire grand-chose pour modifier la taille de l'échantillon. Ceux qui travaillent avec des humains ou des animaux sont sous pression pour garder des échantillons aussi petits que possible tout en maintenant une puissance adéquate. Cependant, ils pourraient montrer que ce qu'ils ont est suffisamment puissant.

Button, K. S., J. P. A. Ioannidis, C. Mokrysz, B. A. Nosek, J. Flint, E. S. J. Robinson et M. R. Munafò. 2013. Panne de courant: pourquoi la petite taille de l'échantillon nuit à la fiabilité des neurosciences. Nature Reviews Neuroscience 14: 1–12.

Ioannidis, J. P. A. 2005. Pourquoi la plupart des résultats de recherche publiés sont faux. Médecine PLoS 2: e124.

Je ne suis vraiment pas d'accord avec la première partie de votre réponse, "À moins que vous ne sachiez par observation qu'un processus ne suit pas une distribution gaussienne ... alors c'est probablement le cas". Le fardeau de la preuve devrait être l'inverse: à moins que vous ne puissiez clairement expliquer pourquoi vos données devraient être distribuées normalement, vous devez admettre que ce n'est peut-être pas le cas et utiliser une méthode non paramétrique.
Roland
2015-08-30 12:49:44 UTC
view on stackexchange narkive permalink

Vous avez raison de vous méfier. Je dirais que, dans la plupart des situations, les tests d'hypothèse basés sur la distribution normale ne sont pas appropriés. Si un test d'hypothèse est nécessaire, un test de permutation devrait presque toujours être utilisé.

Comme le souligne WYSIWYG, il n'y a aucune raison de supposer qu'une mesure est distribuée normalement sans fort connaissance a priori . Le théorème de la limite centrale est l'argument standard pour supposer que la moyenne est approximativement distribuée normalement, mais je dirais que ce n'est pas très utile en pratique, car la convergence peut être très lente: si votre distribution de données est loin d'être normal, vous avez besoin d'un grand nombre d'échantillons pour que la moyenne soit à peu près normale. Combien? Impossible de dire, car nous ne connaissons pas la distribution des données! Donc, en pratique, l'approximation peut être très mauvaise, puis le test sera complètement désactivé. Cela s'applique non seulement au test t, mais à de nombreux tests paramétriques qui reposent sur l'approximation normale, tels que les tests du chi carré.

Heureusement, il existe de meilleurs outils de nos jours. Le test de permutation ne nécessite pas l'hypothèse de distribution normale; les résultats sont toujours valides, quelle que soit la distribution des données. Il est facile à réaliser avec les ordinateurs d'aujourd'hui et simple à comprendre. C'est un bon livre sur les tests de permutation (et autres méthodes de rééchantillonnage).

Ronald Fischer et ses contemporains qui ont développé la théorie normale au début des années 1900 étaient parfaitement conscients que le test de permutation était une bien meilleure solution, mais il nécessite des calculs approfondis, ce qui n'était tout simplement pas possible à l'époque. Le test normal a donc été développé comme une approximation de l'homme pauvre du test de permutation exacte. Mais aujourd'hui, nous n'avons plus besoin de cette approximation, car nos puissants ordinateurs peuvent effectuer des tests de permutation même de grande envergure en un clin d'œil.

Alors pourquoi les gens s'en tiennent-ils encore aux tests normaux approximatifs? Malheureusement, je pense qu'ils sont couramment utilisés uniquement parce que la plupart des biologistes ne connaissent aucun autre outil et suivent simplement la tradition. Une raison historique derrière l'hypothèse normale en biologie est un argument classique de Fischer, concernant la génétique des populations: si un phénotype est affecté par un grand nombre de gènes et que leurs effets sont additifs, alors la variable phénotype est une somme de nombreuses variables aléatoires, et d'après le théorème de la limite centrale, il devrait être approximativement normal. L'exemple classique est la taille, qui est en effet étroitement répartie normalement dans la population. Mais ce raisonnement s'applique à la génétique des populations naturelles, pas aux expériences en laboratoire.

Ensuite, il y a tout le débat sur la question de savoir si les tests d'hypothèse (et les valeurs p en particulier) doivent être utilisés, quel que soit le test que vous utilisation. D'autres réponses ont touché à cela. Je ne vais pas y entrer, mais c'est un sujet très important, et je recommanderais cet excellent article de Nature, et les références qu'il contient.

http://www.nature.com/ news / méthode-scientifique-erreurs-statistiques-1.14700f

La volonté de ne publier que des résultats significatifs a une seconde conséquence à ajouter au biais sur les publications. Étant donné que la puissance des tests paramétriques est généralement supérieure à la puissance des tests non paramétriques équivalents, les résultats ne sont souvent significatifs que si des tests paramétriques sont utilisés - nécessitant généralement une distribution gaussienne. Par conséquent, les chercheurs désireux de publier sont fortement incités à assumer la normalité.
Pouvez-vous justifier brièvement le bénéfice des tests de permutation? Que voulez-vous leur répondre? Comment peuvent-ils aider à identifier les distributions possibles dans les données biologiques?
Les tests de permutations sont couramment utilisés pour tester la différence de moyenne / médiane / etc. entre deux groupes d'échantillons. Ils ne nécessitent que des hypothèses très légères (par exemple, un échantillon indépendant) et sont applicables à pratiquement toutes les distributions de données. L'estimation de la distribution sous-jacente réelle n'est pas nécessaire (et rarement réalisable).


Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.
Loading...