La réponse de kmm est correcte; Je veux juste ajouter quelques-uns de mes points sur le type de données qui doivent suivre une distribution gaussienne.
À moins que vous ne sachiez par observation qu'un processus ne suit pas une distribution gaussienne (par exemple, Poisson, binomial, etc.), alors cela fonctionne probablement au moins assez bien à des fins statistiques.
Je ne blâmerai pas kmm pour cette déclaration parce que ce qu'ils ont dit est ce qui se passe le plus souvent. C'est pratiquement ce que font tous les biologistes, mais c'est une approche incorrecte .
Gaussien ne doit pas être considéré comme une distribution par défaut. Cela peut conduire à des inférences incorrectes. Habituellement, l'expérimentateur a une idée du type de données qu'il mesure et de la distribution que les données sont susceptibles de suivre. Si vous n'êtes pas sûr de la distribution sous-jacente, optez pour des tests statistiques non paramétriques .
Quels types de données suivent la distribution gaussienne?
Selon le théorème central des limites, la distribution de la moyenne (valeur attendue) ou somme de plusieurs échantillons de variables aléatoires indépendantes et distribuées de manière identique ( IID ) suivraient la distribution gaussienne. La variable aléatoire elle-même peut suivre n'importe quelle distribution, mais si vous mesurez la moyenne plusieurs fois en utilisant des expériences répétées, la distribution de la moyenne serait gaussienne.
Depuis le site Wolfram:
Soit $ X_1, X_2, ..., X_N $ un ensemble de N variables aléatoires indépendantes et chaque $ X_i $ a une distribution de probabilité arbitraire $ P (x_1, ..., x_N) $ avec une moyenne $ \ mu_i $ et une variance finie $ \ sigma_i ^ 2 $. Alors la forme normale varie:
$$ X_ {norm} = \ frac {\ displaystyle \ sum_ {i = 1} ^ N x_i- \ sum_ {i = 1} ^ N \ mu_i} {\ sqrt {\ displaystyle \ sum_ {i = 1} ^ N \ sigma_i ^ 2}} $$
a une fonction de distribution cumulative limite qui se rapproche d'une distribution normale.
La page wikipedia sur CLT est également assez bonne. Vous pouvez aussi y jeter un œil.
Habituellement, dans les expériences biologiques, nous mesurons certaines propriétés, disons l'expression d'un gène. Lorsque vous effectuez plusieurs réplications et qu'il n'y a pas de mécanisme sous-jacent spécifique qui générerait une variation (c'est-à-dire que les erreurs sont purement aléatoires), vous obtiendrez des valeurs normalement distribuées. Notez que cela s'applique uniquement aux moyennes de l'échantillon. Dans certains cas, nous supposons que la variation de la valeur d'une variable est due à une fluctuation aléatoire et considérons donc que ces variables sont normalement distribuées (pas leurs moyennes mais les valeurs elles-mêmes); par exemple le poids des souris nourries et élevées de manière égale. Ceci est juste votre hypothèse qui constitue l'hypothèse nulle.
Un autre point à noter est que la variable qui devrait suivre la distribution normale doit essentiellement être continue dans la nature. Certaines variables discrètes peuvent être approximées comme continues, mais il faut avoir un bon raisonnement pour le faire. Par exemple, les tailles de population, bien que discrètes, peuvent être supposées continues si les tailles sont importantes.
La distribution de Poisson est unique et est une distribution discrète. Certains types de phénomènes aboutissent à des RV distribués de Poisson. Ces phénomènes devraient essentiellement être des processus de Poisson. Consultez ce message pour plus de détails. La distribution de Poisson modélise fondamentalement la probabilité d'événements N dans un intervalle de temps donné pour un taux d'événements donné ($ \ lambda $). Ce taux est également appelé intensité de la distribution.
Binomial est une autre distribution discrète unique. Les génotypes résultant de la ségrégation mendélienne des gènes, par exemple, suivent cette distribution. Il modélise essentiellement la probabilité d'un N nombre d'événements dans certains M essais. Dans la distribution binomiale, il n'y a que deux résultats possibles. La distribution multinomiale est une généralisation de la distribution binomiale avec des résultats multiples.
Puisque Poisson et Binomial sont des distributions discrètes, ils ne doivent pas être confondus avec une distribution normale. Cependant, dans certaines conditions, en particulier lorsque le nombre d'essais dans la distribution binomiale est élevé et la probabilité binomiale = 0,5, alors il peut être approximé comme un gaussien avec la même valeur de moments. De même, si l'intensité (taux) de la distribution de Poisson est élevée ou si l'intervalle de temps est grand, la distribution du RV de Poisson peut être approximée à Gauss (avec la même valeur de moments). Dans ces cas, la valeur de la moyenne augmente considérablement, permettant ainsi une approximation continue.
De nombreux ensembles de données montrent des distributions normales de type loi de puissance / asymétriques et les gens font souvent l'erreur de les supposer normales. Un exemple (de mon expérience) est l'expression de tous les gènes d'une cellule. Très peu de gènes ont une expression élevée et de nombreux gènes ont une faible expression. Ceci s'applique également à la distribution en degrés des nœuds dans certains réseaux réels tels que le réseau de régulation des gènes.
En résumé, vous devez supposer une distribution gaussienne lorsque:
- La variable est un mesure d'une valeur répétée plusieurs fois à partir d ' échantillons identiques
- La variabilité devrait être aléatoire dans le cas de contrôle (dans le test t, lorsque vous rejetez l'hypothèse nulle vous dites en fait qu'une certaine variable ne suit pas la distribution normale supposée sous l'hypothèse nulle)
- La variable est continue ou discrète avec une grande taille d'échantillon