Les lacunes dans la feuille de calcul

Comment traiter les données manquantes à l'aide de l'imputation multiple.

procédures de données modernes manquantes, telles que l'imputation multiple et une information complète estimation du maximum de vraisemblance, offrent une bien meilleure façon de traiter la question des données manquantes. Ces procédures reposent sur des hypothèses moins strictes sur lesquelles les données sont manquantes, et produiront des estimations des paramètres non biaisées. Ils ne ont également un impact négatif pas la puissance statistique. Avec les récents progrès des logiciels, des procédures de données manquantes modernes peuvent désormais être effectués dans de nombreux progiciels statistiques (par exemple SPSS, SAS et R).

Aborder données manquantes: A court Guide pratique

Dans un premier temps, vous devez examiner les schémas de données manquantes dans votre ensemble de données et déterminer quelles variables ont des données manquantes. Ensuite, pour avoir une meilleure idée des raisons pour lesquelles les valeurs sont manquantes, il est important de prendre en compte les trois principaux mécanismes de données manquantes:

Voici un exemple pratique montrant un MCAR et cas non MCAR en utilisant le même ensemble de données. Disons que vous avez données pour 50 participants sur la taille et du poids. Vous avez des données de poids pour les 50 participants, mais vous ne disposez que des données de hauteur pour 25. Pour déterminer si la « hauteur » est MCAR, vous devez d'abord les participants séparés sur la base du fait qu'ils ont déclaré que leur hauteur. Par conséquent, vous auriez un groupe de participants qui ont déclaré leur taille et un autre groupe de participants qui n'ont pas déclaré leur hauteur. Ensuite, vous réaliserez un t -test d'examiner si ces deux groupes de participants diffèrent en ce qui concerne leur poids moyen.

Cas 1. Les données sont MCAR: Les participants qui n'ont pas déclaré leur taille ont un poids moyen comparable par rapport aux participants qui ont fait état de leur taille. En d'autres termes, le poids n'a aucun rapport si les participants ont déclaré que leur hauteur. Le t -test statistique est pas significative, et vous concluez que « hauteur » est MCAR.

Cas 2. Les données ne sont pas MCAR: Pour des raisons qui ne sont pas claires, les participants qui n'ont pas déclaré leur taille ont un poids moyen inférieur par rapport aux participants qui ont fait état de leur taille. En d'autres termes, le poids est liée au fait que les participants ont indiqué leur hauteur. La statistique t -test est importante, et vous concluez que « hauteur » n'est pas MCAR.

Dans la phase d'analyse, vous effectuerez l'analyse statistique de choix (par exemple de régression logistique) et le programme analysera chacun des m ensembles de données imputées. Par conséquent, si vous avez 20 ensembles de données imputées, le programme générera 20 estimations des paramètres et des erreurs standard.

Au lieu d'utiliser les résultats de tout ensemble de données théorique simple, un plusieurs pools d'analyse d'imputation ou des moyennes, les valeurs des paramètres m dans une seule estimation ponctuelle. Vous déclarez ensuite les résultats mis en commun dans votre présentation de recherche ou d'un manuscrit.

Options logicielles

Progiciels, tels que SPSS, SAS et R, sont capables d'effectuer l'imputation multiple. Les valeurs manquantes add-on dans SPSS effectue la série de -Tests indépendants t. De plus, SPSS automatise les phases d'analyse et de mise en commun. La procédure d'imputation SPSS présente les imputations dans un seul fichier, avec une variable d'identification fixé à chaque ensemble de données. Bien que la fonction de mise en commun ne fonctionne pas avec toutes les procédures statistiques SPSS, il ne fonctionne pour de nombreuses analyses communes (par exemple de régression multiple).

SAS a également une procédure d'imputation multiple (PROC MI). Similaire à SPSS, SAS inclut les imputations dans un seul fichier et lui attribue un numéro d'identification à chaque ensemble de données. La procédure MIANALYZE est en mesure de mettre en commun les estimations et les erreurs types à partir des ensembles de données.

Rapport sur les résultats

Avancer

Les références

A propos de l'auteur

Les opinions exprimées dans cet article sont celles des auteurs et ne reflètent pas les opinions ou les politiques de l'APA.

Précédent ◈ Suivant