Comment utiliser ajustement de courbe dans l'analyse prédictive

Courbe d'ajustement

Sommaire

est un procédé utilisé dans l'analyse prédictive dans lequel le but est de créer une courbe qui représente la fonction mathématique qui correspond le mieux les (originales) des points de données réelles d'une série de données.

La courbe peut soit passer par tous les points de données ou de rester dans la masse des données, en ignorant certains points de données dans l'espoir d'attirer les tendances à partir des données. Dans les deux cas, une fonction mathématique unique est affecté à l'ensemble du corps de données, dans le but d'équiper tous les points de données dans une courbe qui délimite les tendances et les aides à la prédiction.

image0.jpg

D'ajustement de courbe peut être obtenue dans l'une des trois façons suivantes:

  • En trouvant un ajustement précis pour chaque point de données (un processus appelé interpolation)

  • En restant dans la masse des données tout en ignorant certains des points de données dans l'espoir de tendances de dessin sur les données

  • En employant lissage de données à venir avec une fonction qui représente le graphique lissée

Ajustement de la courbe peut être utilisée pour remplir les points de données possibles pour remplacer les valeurs manquantes ou aider les analystes de visualiser les données.

Lorsque vous travaillez pour générer un modèle d'analyse prédictive, éviter adapter votre modèle pour adapter parfaitement à votre échantillon de données. Un tel modèle échouera - misérablement - de prévoir des ensembles de données encore variables similaires dehors de l'échantillon de données. Montage de trop près un modèle à un échantillon de données particulier est une erreur classique appelé overfitting.

Les malheurs de overfitting

En substance, overfitting un modèle est ce qui arrive quand vous overtrain le modèle pour représenter seulement vos données de l'échantillon - ce qui est pas une bonne représentation des données dans son ensemble. Sans un ensemble de données plus réaliste de continuer, le modèle peut alors être aux prises avec des erreurs et des risques quand il va opérationnelle - et les conséquences pour votre entreprise peut être grave.

Overfitting un modèle commun est un piège parce que les gens veulent créer des modèles qui fonctionnent - et sont donc tentés de garder les variables de peaufinage et paramètres jusqu'à ce que le modèle fonctionne parfaitement - trop peu de données. L'erreur est humaine. Heureusement, il est aussi humaine pour créer des solutions réalistes.

Pour éviter overfitting votre modèle à votre échantillon de données, assurez-vous d'avoir un corps de données de test disponible qui est séparée de vos données d'échantillons. Ensuite, vous pouvez mesurer la performance de votre modèle avant de faire indépendamment du modèle opérationnel.

Ainsi, une garantie générale contre overfitting est de diviser vos données à deux parties: la formation de données de données et de test. La performance du modèle par rapport aux données de test vous dira beaucoup de savoir si le modèle est prêt pour le monde réel.

Une autre pratique consiste à faire en sorte que vos données représente la plus grande population du domaine vous pour la modélisation. Tout un modèle surentraînés sait sont les caractéristiques spécifiques de l'échantillon de données, il est formé pour. Si vous vous entraînez le modèle uniquement sur (par exemple) les ventes de raquettes en hiver, ne soyez pas surpris si elle échoue lamentablement quand il est exécuté à nouveau sur les données de toute autre saison.

Comment éviter overfitting

Il vaut la peine de répéter: Trop de peaufinage du modèle est de nature à occasionner overfitting. Un tel tweak est notamment trop de variables dans l'analyse. Gardez ces variables à un minimum. Seulement inclure des variables que vous voyez comme absolument nécessaires - ceux que vous croyez va faire une grande différence pour le résultat.

Cette idée ne vient que de la connaissance intime du domaine vous êtes en affaires. Voilà où l'expertise des experts du domaine peut vous aider à ne pas tomber dans le piège de surajustement.

Voici une liste des meilleures pratiques pour vous aider à éviter overfitting votre modèle:


  • Choisissez un ensemble de données de travailler avec qui est représentatif de la population dans son ensemble.

  • Divisez votre ensemble de données à deux parties: la formation de données de données et de test.

  • Gardez les variables analysées au minimum sain pour la tâche à accomplir.

  • Demandez l'aide d'experts de la connaissance du domaine.

Dans le marché boursier, par exemple, une technique analytique classique est back-testing - exécution d'un modèle par rapport aux données historiques pour chercher la meilleure stratégie de négociation.

Supposons que, après l'exécution de son nouveau modèle par rapport aux données générées par un récent marché haussier, et peaufiner le nombre de variables utilisées dans son analyse, l'analyste crée ce qui ressemble à une stratégie de négociation optimale - celle qui donnerait les rendements les plus élevés si il ne pouvait revenir en arrière et de ne traiter que durant l'année qui a produit les données d'essai. Malheureusement, il ne peut pas.

Si il essaie d'appliquer ce modèle dans un marché baissier actuel, regardez ci-dessous: Il va subir des pertes en appliquant un modèle trop optimisé pour une période de temps étroite et un ensemble de conditions qui ne correspondent pas aux réalités actuelles. (Voilà pour les bénéfices hypothétiques.)

Le modèle a travaillé seulement pour cette disparu marché haussier parce qu'il était surentraînés, portant les signes distinctifs du contexte qui a produit les données de l'échantillon - avec ses spécificités, les valeurs aberrantes, et les lacunes. Toutes les circonstances entourant cet ensemble de données ne seront probablement pas répétées dans le futur, ou dans une représentation fidèle de l'ensemble de la population -, mais ils ont tous montré dans le modèle overfitting.

Si la sortie d'un modèle est trop précis, considérer qu'un soupçon de prendre un coup d'oeil de plus près. Demandez l'aide d'experts de la connaissance du domaine pour voir si vos résultats sont vraiment trop beau pour être vrai, et exécuter ce modèle sur d'autres données de test pour d'autres comparaisons.


» » » » Comment utiliser ajustement de courbe dans l'analyse prédictive