Les distributions de probabilité dans l'analyse statistique des données volumineuses

Distributions de probabilité est une des nombreuses techniques statistiques qui peuvent être utilisées pour analyser les données pour trouver des modèles utiles. Vous utilisez un distribution de probabilité pour calculer les probabilités associées aux éléments d'un ensemble de données:

  • Distribution binomiale: Vous devriez utiliser la distribution binomiale pour analyser les variables qui peuvent prendre un seul des deux valeurs. Par exemple, vous pouvez déterminer la probabilité qu'un pourcentage donné de membres dans un club de sport sont laissés; main.

  • Distribution de Poisson: Vous devriez utiliser la distribution de Poisson pour décrire la probabilité d'un nombre donné d'événements survenus sur un intervalle de temps. Par exemple, il pourrait être utilisé pour décrire la probabilité d'un nombre déterminé de résultats sur un site Web sur l'heure à venir.

  • Distribution normale: La distribution normale est la distribution la plus largement utilisée de probabilité dans la plupart des disciplines, y compris l'économie, la finance, le marketing, la biologie, la psychologie, et bien d'autres. L'un des traits caractéristiques de la distribution normale est symétrie - la probabilité d'une variable étant une distance donnée en dessous de la moyenne de la distribution est égale à la probabilité de celui-ci étant à la même distance au-dessus de la moyenne.

    Par exemple, si la hauteur moyenne de tous les hommes aux États-Unis est de 70 pouces, et les hauteurs sont normalement distribués, un homme choisi au hasard est également susceptible de se situer entre 68 et 70 pouces de hauteur, comme il est d'être entre 70 et 72 pouces de hauteur .

    La distribution normale fonctionne bien avec de nombreuses applications. Par exemple, il est souvent utilisé dans le domaine de la finance pour décrire les rendements des actifs financiers. En raison de sa facilité d'interprétation et d'application, la distribution normale est parfois utilisé, même si l'hypothèse de normalité est seulement à peu près correcte.

  • Distribution t de Student: Distribution t de Student est similaire à la distribution normale, mais avec la distribution t de Student, très petites ou très grandes valeurs sont beaucoup plus susceptibles de se produire. Cette distribution est souvent utilisé dans les situations où une variable présente trop de variation pour être cohérent avec la distribution normale. Cela est vrai lorsque les propriétés de petits échantillons sont en cours d'analyse. Avec de petits échantillons, la variation entre les échantillons est susceptible d'être tout à fait considérable, de sorte que la distribution normale ne devrait pas être utilisé pour décrire leurs propriétés.

    La distribution t de Student a été développé par WS Gosset alors qu'il était employé à la société de brasserie Guinness. Il tentait de décrire les propriétés de moyens de petits échantillons.

  • La distribution du chi-carré: La distribution chi-carré est approprié pour plusieurs types d'applications. Par exemple, vous pouvez l'utiliser pour déterminer si une population suit une distribution de probabilité particulière. Vous pouvez également l'utiliser pour tester si la variance d'une population égale à une valeur spécifiée, et pour tester l'indépendance de deux ensembles de données.

  • La distribution F: Le F-distribution est dérivé de la distribution du chi-carré. Vous pouvez l'utiliser pour tester si les variances de deux populations sont égaux les uns des autres. Le F-distribution est également utile dans des applications telles que l'analyse de régression.


» » » » Les distributions de probabilité dans l'analyse statistique des données volumineuses