Comment sélectionner des variables indépendantes pour votre modèle économétrique

L'une des décisions les plus importantes que vous faites lorsque vous spécifiez votre modèle économétrique est variables à inclure comme variables indépendantes. Ici, vous trouverez ce que des problèmes peuvent survenir si vous incluez trop peu ou trop de variables indépendantes dans le modèle, et vous voyez comment cette erreur de spécification affecte vos résultats.

Sommaire

L'omission de variables pertinentes

Si une variable qui appartient dans le modèle est exclu de la fonction de régression estimée, le modèle est mal spécifié et peut causer des biais dans les coefficients estimés.

Vous avez un biais de variable omise si une variable exclue a un effet (positif ou négatif) sur votre variable dépendante et il est corrélé avec au moins un de vos variables indépendantes.

La nature mathématique de biais de spécification peut être exprimé en utilisant un modèle simple. Supposons que le vrai modèle de population est donnée par

image0.jpg

X1 et X2 sont les deux variables qui affectent Y. Mais en raison de l'ignorance ou manque de données, à la place vous estimez cette régression:

image1.jpg

qui omet X2 à partir des variables indépendantes. La valeur attendue

image2.jpg

dans cette situation est

image3.jpg

Mais cette équation viole le théorème de Gauss-Markov parce

image4.jpg

L'amplitude de la polarisation peut être exprimé sous la forme

image5.jpg

image6.jpg

si l'effet de X2 sur Y et

image7.jpg

est la pente de cette régression:

image8.jpg

qui capte la corrélation (positive ou négative) entre la variable (s) inclus et exclus.

Résumé du biais de variable omise
Impact de la variable omise variable dépendanteCorrélation entre inclus et Omis variable:
PositifNégatif
PositifBiais positifPolarisation négative
NégatifPolarisation négativeBiais positif

Dans la pratique, vous êtes susceptible d'avoir un biais de variable omise, car il est impossible de contrôler tout ce qui touche votre variable dépendante. Cependant, vous pouvez augmenter vos chances de minimiser les biais de variable omise en évitant les modèles de régression simples (avec une variable indépendante) et y compris les variables qui sont susceptibles d'être le plus important en théorie (et peut-être, mais pas nécessairement statistiquement) pour expliquer la variable dépendante .

Y compris les variables pertinentes

Si une variable ne fait pas dans le modèle et est inclus dans la fonction de régression estimée, le modèle est trop précis. Si vous overspecify le modèle de régression en incluant une variable non pertinente, les coefficients estimés restent impartiale. Cependant, il a un effet indésirable d'augmenter les erreurs types de vos coefficients.

Dans un modèle de régression simple (avec une variable indépendante), l'erreur-type estimée du coefficient de régression pour X est

image9.jpg

image10.jpg

est la variance estimée de l'erreur et

image11.jpg

est la variation totale X.

Si vous incluez des variables supplémentaires indépendantes dans le modèle, l'erreur-type estimée pour un coefficient de régression donnée est donnée par

image12.jpg

image13.jpg

est le R-carré de la régression de Xk sur les autres variables indépendantes ou Xs. Car

image14.jpg

le numérateur diminue. Une variable non pertinente ne aider à expliquer pas de la variation Y, sans une baisse correspondante des

image15.jpg

les standards d'erreur augmente.

Juste parce que votre coefficient estimé est statistiquement non significatif ne permet pas pertinent. Un modèle bien spécifié comprend habituellement certaines variables qui sont statistiquement significatives et d'autres qui ne sont pas. En outre, les variables qui ne sont pas statistiquement significatif peut contribuer assez de variation expliqué avoir aucun impact négatif sur les erreurs standard.


» » » » Comment sélectionner des variables indépendantes pour votre modèle économétrique