Trop c'est trop! Manipulation Multicolinéarité dans l'analyse de régression

Dans l'analyse de régression, nous examinons les corrélations entre une ou plusieurs variables d'entrée, ou les facteurs, et une réponse. On peut voir comment le temps de cuisson et la température se rapportent à la dureté d'un morceau de plastique, ou comment les niveaux d'enseignement et dans la région d'un de naissance se rapportent à un revenu annuel. Le nombre de facteurs potentiels que vous pourriez inclure dans un modèle de régression est limité que par votre imagination. et votre capacité de recueillir les données réellement vous imaginez.







Mais avant de jeter des données sur chaque facteur prédictif potentiel sous le soleil dans votre modèle de régression, rappelez-vous une chose appelée multicolinéarité. Avec la régression, comme tant de choses dans la vie, il arrive un moment où l'ajout de plus ne vaut pas mieux. En fait, parfois, non seulement n'ajoutant des facteurs « plus » à un modèle de régression ne parviennent pas à rendre les choses plus claires, il est en fait les choses plus difficiles à comprendre!

Qu'est-ce que Multicolinéarité et pourquoi devrais-je me?

Vous pouvez penser en termes d'un match de football: Si un joueur attaque le quart adverse, il est facile de donner du crédit pour le sac où, en raison du crédit. Mais si trois joueurs attaquent le quart-arrière en même temps, il est beaucoup plus difficile de déterminer lequel des trois fait la plus grande contribution au sac.

Non pas que dans le football? Très bien, essayez cette analogie au lieu: Vous allez voir un groupe de rock and roll avec deux grands joueurs de guitare. Vous êtes impatient de voir que l'on joue mieux. Mais sur scène, ils sont tous deux jouer conduit furieux en même temps! Quand ils sont à la fois jouer fort et vite, comment pouvez-vous dire quel guitariste a le plus grand effet sur le son? Même si ils ne jouent pas les mêmes notes, ce qu'ils font est si semblable il est difficile de distinguer l'un de l'autre.







C'est le problème avec multicolinéarité.

Signes avant-coureurs de Multicolinéarité

Un peu de multicolinéarité est pas nécessairement un énorme problème: l'extension de l'analogie de groupe de rock, si un joueur de guitare est plus fort que l'autre, vous pouvez facilement les différencier. Mais multicolinéarité grave est un problème majeur, car elle augmente la variance des coefficients de régression, ce qui les rend instable. Plus la variance qu'ils ont, plus il est difficile d'interpréter les coefficients.

Alors, comment savez-vous si vous avez besoin d'être préoccupé par la multicolinéarité dans votre modèle de régression? Voici quelques choses à surveiller:

Une façon de mesurer multicolinéarité est le facteur d'inflation de la variance (VIF), qui évalue la quantité de la variance d'un coefficient de régression estimée augmente si vos facteurs prédictifs sont corrélés. Si aucun facteurs sont corrélés, les VIFs seront tous 1.

Pour avoir Minitab Statistical Software calculer et afficher le VIF pour vos coefficients de régression, il suffit de sélectionner dans la boîte de dialogue « Options » lorsque vous effectuez votre analyse.

Avec VIF d'affichage sélectionné en option, Minitab fournira une table de coefficients dans le cadre de sa production. Voici un exemple impliquant des données portant sur la relation entre le salaire des chercheurs, des publications et des années d'emploi:

Vous aurez envie de faire quelque chose à ce sujet.

Comment puis-je traiter avec Multicolinéarité?

  • Retirer prédicteurs fortement corrélés du modèle. Si vous avez deux ou plusieurs facteurs avec un VIF élevé, retirer un du modèle. Parce qu'ils fournissent des informations redondantes, en supprimant l'un des facteurs corrélés ne réduit généralement pas radicalement la R-carré. Envisagez d'utiliser une régression par étapes, la meilleure régression sous-ensembles. ou des connaissances spécialisées de l'ensemble de données pour éliminer ces variables. Sélectionnez le modèle qui a la valeur la plus élevée de R-carré.
  • Utiliser des moindres carrés de régression partielle (PLS) ou analyse des composantes principales. des méthodes de régression qui réduisent le nombre de prédicteurs à un plus petit ensemble de composants non corrélées.

Avec Minitab Statistical Software, il est facile d'utiliser les outils disponibles dans Stat> Menu de régression pour tester rapidement les différents modèles de régression pour trouver le meilleur. Si vous ne l'utilisez pas, nous vous invitons à essayer Minitab gratuitement pendant 30 jours.

Avez-vous déjà rencontrer des problèmes avec multicolinéarité? Comment avez-vous résolu le problème?

Trop c'est trop! Manipulation Multicolinéarité dans l'analyse de régression







Articles Liés