Montrer la distribution avec des histogrammes

Histogrammes

Sommaire

sont des diagrammes à barres qui montrent quelle fraction des sujets ont des valeurs relevant des intervalles déterminés. Le but principal d'un histogramme est de vous montrer comment les valeurs d'une valeur numérique sont distribués. Cette distribution est une approximation de la distribution de fréquence de population vrai pour cette variable.

image0.jpg

La courbe lisse montre comment les valeurs de QI sont distribués dans une population infiniment grande. La hauteur de la courbe à une valeur de QI est proportionnelle à la fraction de la population dans le voisinage immédiat de ce IQ. Cette courbe présente la caractéristique “ cloche ” forme d'une distribution normale.

L'histogramme indique comment les QI de 60 sujets d'un échantillon aléatoire de la population peuvent être distribués. Chaque barre représente un intervalle de valeurs de QI avec une largeur de dix points de QI, et la hauteur de chaque barre est proportionnelle au nombre de sujets dans l'échantillon dont le QI est tombé dans cet intervalle.

Distributions log-normale

Parce que d'un échantillon est seulement une représentation imparfaite de la population, la détermination de la forme précise d'une distribution peut être difficile à moins que votre taille de l'échantillon est très grande. Néanmoins, un histogramme permet généralement vous repérez biaisée données.

Une forme asymétrique est typique d'un log-normale distribution, qui se produit très souvent dans le travail biologique. C'est appelé log-normale parce que si vous prenez le logarithme de chaque valeur de données (il n'a pas d'importance quel genre de logarithme vous prenez), les journaux résultants ont une distribution normale.

image1.jpg

Donc, il est une bonne pratique pour préparer un histogramme pour chaque variable numérique vous prévoyez d'analyser, pour voir si elle est sensiblement biaisé et, dans l'affirmative, si une logarithmique “ la transformation ” rend la distribution plus près de la normale.

Autres distributions anormales

Connectez-normalité est pas le seul type de non-normalité qui peut survenir dans les données du monde réel. Selon le processus sous-jacent qui donne lieu à des données, les chiffres peuvent être réparties d'une autre manière.

Par exemple, le nombre d'événements se comportent souvent en fonction de la distribution de Poisson et peuvent être, au moins approximativement, normalisée en prenant la racine carrée de chaque chef d'accusation (à la place du logarithme, comme vous le faites pour les données de log-normale). Encore d'autres procédés peuvent donner lieu à gauche, des données biaisées ou aux données avec les deux (ou plusieurs) des pics.


Que faire si ni le log-normale, ni la transformation racine carrée normalise vos données biaisées? Une approche consiste à utiliser le Box-Cox transformation, qui a cette formule générale: Transformed X = (XUN - 1)/UN, où UN est un paramètre ajustable que vous pouvez varier de négative à des valeurs positives.

En fonction de la valeur de UN, cette transformation peut souvent faire la gauche; biaisée ou à droite; données asymétriques plus symétrique (et plus normalement distribué). La figure montre comment la transformation de Box-Cox peut aider à normaliser les données faussées.

image2.jpg

Certains logiciels vous permet de varier UN à travers une gamme de valeurs positives ou négatives à l'aide d'un curseur sur l'écran que vous pouvez déplacer avec votre souris. Comme vous faites glisser le UN appréciez avant et en arrière, vous voyez l'histogramme changer sa forme de gauche à droite; décalé vers symétrique à droite; biaisée. Ici, en utilisant UN = 0,12 normalise assez bien les données.

Quand UN est exactement 0, la formule de Box-Cox devient 0/0, qui est indéterminée. Mais on peut montrer que, UN 0 approches (soit depuis le côté positif ou négatif), la formule de Box-Cox devient la même que la fonction logarithmique. Ainsi, la transformation logarithmique est juste un cas spécial de la transformation plus générale de Box-Cox.

Si vous ne pouvez pas trouver toute transformation qui rend vos données semblent encore à peu près normale, alors vous devez analyser vos données en utilisant non paramétrique méthodes, qui ne supposent pas que vos données est normalement distribué.


» » » » Montrer la distribution avec des histogrammes