Analyse exploratoire des données quantitatives (eda) techniques

Bien EDA est principalement basée sur des techniques graphiques, il se compose également de quelques techniques quantitatives. Cet article traite de deux d'entre eux: l'estimation d'intervalle et tests d'hypothèses.

Sommaire

L'estimation d'intervalle

L'estimation d'intervalle est une technique qui est utilisé pour construire un gamme de valeurs dans laquelle une variable est susceptible de tomber. Un exemple important de ceci est l'intervalle de confiance. UN Intervalle de confiance est une plage de numéros qui est susceptible de contenir la valeur d'une mesure de la population tels que la moyenne. Un intervalle de confiance est construit comme suit:

image0.jpg

L'intervalle de confiance est constitué par un limite inférieure égale à l'estimation ponctuelle moins la marge d'erreur, et un limite supérieure égale à l'estimation ponctuelle plus la marge d'erreur.

La estimation ponctuelle est une valeur unique estimée à partir d'un échantillon. Par exemple, la moyenne d'échantillon est une estimation ponctuelle de la moyenne de population. De même, l'écart type d'échantillon est une estimation ponctuelle de l'écart type de population.

La marge d'erreur reflète le degré d'incertitude associé à l'estimation ponctuelle. En d'autres termes, il montre à quel point l'estimation ponctuelle peut varier d'un échantillon à l'autre. La marge d'erreur est fondé sur l'écart type et la taille de l'échantillon utilisé. Le résultat de ces calculs est une plage de valeurs qui est susceptible de contenir la vraie valeur de la mesure de la population.

Par exemple, supposons un chercheur détermine que 95 pour cent de confiance, l'intervalle (-2,0 pour cent, 8,0 pour cent) contient la valeur réelle de la déclaration de moyen de SP 500 l'année prochaine. L'échantillon moyenne est la moyenne de la limite inférieure et supérieure de cet intervalle (soit 3,0 pour cent). La marge d'erreur est donc de 5 pour cent.

Tests d'hypothèses

UN hypothèse statistique est une déclaration qui est supposé être vrai, sauf si il ya de fortes preuves contradictoires. Test d'hypothèse est largement utilisé dans de nombreuses disciplines afin de déterminer si une proposition est vraie ou fausse. Par exemple, le test d'hypothèse pourrait être utilisé pour déterminer si

  • L'âge moyen des résidents d'un État est de 43 ans.

  • Le rendement moyen de stocks dans un portefeuille est de 7,2 pour cent.

  • La quantité des précipitations annuelles dans une ville suit la distribution normale.

Test d'hypothèse est un processus en plusieurs étapes comprenant les éléments suivants:


  1. La déclaration de l'hypothèse nulle: Ceci est la déclaration qui est supposé être vrai.

  2. La déclaration de l'hypothèse alternative: Ceci est la déclaration qui sera acceptée si l'hypothèse nulle est rejetée.

  3. Le niveau de signification à laquelle le test d'hypothèse sera menée: Cela correspond à la probabilité de rejeter l'hypothèse nulle alors qu'elle est fausse.

  4. La statistique de test: Ceci est une mesure numérique qui indique si les données de l'échantillon est compatible avec l'hypothèse nulle.

  5. La valeur critique: Si la statistique de test est plus extrême que la valeur critique, l'hypothèse nulle est rejetée.

  6. La décision: Basé sur la relation entre la statistique de test et de la valeur critique, vous prenez une décision quant à savoir si ou non l'hypothèse nulle doit être rejetée.


» » » » Analyse exploratoire des données quantitatives (eda) techniques