Analyse des mesures répétées de la variance par R

David C. Howell

dhowell / StatPages / MISSING_DATA / Modèles mixtes pour Measures.pdf répétée.

1.1 La nature des données manquantes

Manquant complètement au hasard

Notez que c'est la valeur de l'observation, et non son « données manquantes » qui est important. Si les gens qui ont refusé de déclarer un revenu personnel étaient également susceptibles de refuser de déclarer un revenu familial, les données pourraient encore être considérés comme MCAR, tant que ni d'entre eux avaient un rapport avec la valeur du revenu lui-même. Ceci est une considération importante, parce que quand un ensemble de données se compose des réponses à plusieurs instruments d'enquête, quelqu'un qui n'a pas terminé la Beck Depression Inventory manquerait tous les sous-scores BDI, mais qui ne toucherait pas si les données peuvent être classées comme MCAR.







Manquant au hasard

Manquant pas au hasard

1.2 Les traitements traditionnels pour les données manquantes

L'approche la plus simple - suppression listwise.

De loin l'approche la plus commune de données manquantes est de simplement omettre les cas de données manquantes et d'exécuter nos analyses sur ce qui reste. Ainsi, si 5 sujets du groupe 1 ne se présentent pas à tester, ce groupe est de 5 brèves observations. Ou si 5 personnes ont des scores manquants sur une ou plusieurs variables, nous omettons simplement les personnes de l'analyse. Cette approche est généralement appelée listwise suppression, mais il est également connu comme l'analyse de cas complète.

1.3 Autres Not-So-bonnes approches

Une mauvaise approche - suppression par paires

De nombreux logiciels informatiques offrent la possibilité d'utiliser ce qui est généralement connu comme la suppression par paires, mais a également été appelé suppression « imprudents ». Selon cette approche, chaque élément de la matrice d'intercorrélation est estimée en utilisant toutes les données disponibles. Si un participant rapporte son indice de satisfaction des revenus et de la vie, mais pas son âge, il est inclus dans la corrélation des revenus et la satisfaction de la vie, mais pas dans les corrélations relatives à l'âge. Le problème avec cette approche est que les paramètres du modèle seront basés sur différents ensembles de données, avec différentes tailles d'échantillons et différentes erreurs standard. Il est même tout à fait possible de générer une matrice d'intercorrélation qui n'est pas définie positive, ce qui est susceptible d'apporter votre analyse tout à un arrêt.

Il a été suggéré que s'il n'y a que quelques observations manquantes, il ne fait pas mal quoi que ce soit d'utiliser la suppression par paires. Mais je dirais que s'il n'y a que quelques observations manquantes qu'il ne fait pas mal de choses à jeter les participants et utiliser des cas complets. S'il y a beaucoup d'observations manquantes, vous pouvez faire des dommages considérables avec soit l'analyse. Dans les deux cas les approches indiquées ci-dessous sont généralement préférables.

Je veux parler de quelques approches qui sont parfois utilisées et que nous savons ne sont pas des choix très judicieux. Il est important de parler de ces car il est important de décourager leur utilisation, mais surtout parce qu'ils conduisent logiquement à des approches modernes qui sont très bien mieux.

substitution moyenne

Notez que l'utilisation de substitution moyenne fait seulement un changement trivial du coefficient de corrélation et aucun changement du coefficient de régression. Mais la st. err (b) est sensiblement plus petit en utilisant une substitution moyenne. Cela ne devrait pas être surprenant. Nous avons vraiment ajouté aucune information nouvelle aux données, mais nous avons augmenté la taille de l'échantillon. L'effet de l'augmentation de la taille de l'échantillon est d'augmenter le dénominateur pour le calcul de l'erreur-type, ce qui réduit l'erreur standard. Ajout d'aucune information nouvelle ne devrait certainement pas vous rendre plus à l'aise avec le résultat, mais cela semble. La réduction est fausse et devrait être évité - comme nous le verrons ci-dessous.

substitution de régression

Si nous ne voulons pas la substitution moyenne, pourquoi ne pas essayer d'utiliser la régression linéaire pour prédire ce que le score manquant devrait être sur la base d'autres variables qui sont présentes? Nous utilisons les variables existantes pour faire une prédiction, puis remplacer cette valeur prédite comme si elle était une valeur réelle obtenue. Cette approche a été autour depuis longtemps et a au moins un avantage sur la substitution moyenne. Au moins la valeur imputée est d'une certaine façon conditionnelle à d'autres informations que nous avons sur la personne. Avec la substitution moyenne, si nous manquions le poids d'une personne que nous lui a été attribué le poids moyen. Mettez un peu de manière incorrecte, avec une substitution de régression nous lui attribuer le poids des mâles d'environ le même âge. Cela doit être une amélioration. Mais le problème de la variance d'erreur reste. En substituant une valeur qui est tout à fait prévisible à partir d'autres variables, nous avons pas vraiment ajouté plus d'informations, mais nous avons augmenté la taille de l'échantillon et réduit l'erreur standard.

Il y a un moyen de sortir de cette difficulté, cependant, est connu comme l'imputation de régression stochastique. L'approche ajoute un terme résiduel échantillonné de façon aléatoire à partir de la distribution normale (ou autre) à chaque valeur imputée. SPSS a mis en œuvre cette procédure dans leur analyse de la valeur manquante. Par défaut, cette procédure ajoute un peu d'erreur aléatoire à chaque substitution. Cela ne veut pas éliminer totalement le problème, mais il ne le réduire. Il cependant, et ils construisent de meilleures façons, sur cette idée simple.

1.4 Le cas particulier des membres disparus du groupe

Identification manquante appartenance à un groupe

La chose la plus évidente à faire dans cette situation serait d'abandonner tous les non-répondeurs de l'analyse, et d'essayer de nous convaincre que ces données sont manquantes complètement au hasard. (Même si nous ne nous convainquons, je doute que nous duper nos lecteurs.) Mais une meilleure approche est d'utiliser le fait que la non-réponse elle-même est un bit de données, et de mettre ces sujets dans un groupe de leur propre . Nous aurions alors un test spécifique sur l'hypothèse nulle que les non-répondeurs ne sont pas différents des autres sujets en termes de leur score d'optimisme. Et une fois que nous établissons le fait que cette hypothèse nulle est raisonnable (si nous) nous pouvons aller de l'avant et de comparer le reste des groupes avec un peu plus de confiance. D'autre part, si nous constatons que les non-répondeurs diffèrent systématiquement des autres sur l'optimisme, nous devons en tenir compte dans l'interprétation des différences entre les autres groupes.

Un exemple

Tableau 1 Statistiques descriptives pour Optimisme en fonction du groupe d'adhésion








De ce tableau, nous voyons qu'il existe des différences importantes entre les trois groupes pour lesquels Appartenance religieuse est connue. On voit aussi que la moyenne pour les sujets manquants est beaucoup plus proche de la moyenne des fondamentaliste que les autres moyens, qui pourrait laisser entendre que les fondamentalistes étaient plus susceptibles de refuser de fournir une appartenance religieuse que sont les membres des autres groupes.

Les résultats d'une analyse de la variance sur les scores de Optimisme des quatre groupes est présenté dans le tableau 2. Ici, j'ai demandé SPSS d'utiliser ce qu'on appelle des « simples » Contrastes avec le dernier groupe (manquant) que le groupe de référence. Cela entraînera SPSS pour imprimer une comparaison de chacun des trois premiers groupes avec le groupe manquant. J'ai choisi d'utiliser des contrastes simples parce que je voulais voir comment les sujets manquants par rapport à chacun des trois groupes non manquants.

Tableau 2 Analyse des écarts avec les quatre groupes - Contrastes simples

Le calcul d'un moment, vous montrera que la différence entre la moyenne des Fondamentalistes et la moyenne du groupe manquant est 3,094 à 3,533 = -0,439. De même, le groupe modéré signifie diffère de la moyenne du groupe manquant par 1,942 à 3,533 = -1,591 et la libérale et des moyens manquants diffèrent par 0,878 à 3,533 = -2,655. Ainsi, les participants qui ne donnent pas leur appartenance religieuse ont des scores d'optimisme qui sont beaucoup plus proches de celles des intégristes que ceux des autres affiliations.

Dans la section du tableau intitulé « paramètre Estimates », nous voyons les coefficients de -.439, 1,592 et -2,655. Il est à noter que ces coefficients sont égaux à la moyenne de la différence entre chaque groupe et la moyenne du dernier groupe (Manquant). De plus, les valeurs de t dans cette partie de la table représentent un test de signification sur les écarts par rapport à la moyenne du groupe manquant, et nous pouvons voir que beaucoup de disparus dévie Modérés et libéraux, mais pas de Fondamentalistes. Cela me donne à penser qu'il est un schéma systématique de la non-réponse que nous devons garder à l'esprit lorsque nous évaluons nos données. Les sujets ne manquent pas au hasard, car les données manquantes dépend de la valeur de cette variable. (Notez que le coefficient manquant est fixé à 0 et étiqueté « redondant ». Il est redondant parce que si quelqu'un n'est pas dans le fondamentaliste, modéré ou groupe libéral, nous savons qu'ils manquent. « Disparus », dans ce cas, ajoute aucune information nouvelle.)

contrastes ortogonaux

Vous pourriez être enclin à penser que l'analyse précédente ne nous donne pas exactement ce que nous voulons, car il ne nous dit pas sur les relations entre les trois groupes ayant des membres non disparus. En partie, c'est le point, parce que nous voulions inclure toutes les données d'une manière qui nous a dit quelque chose au sujet de ces gens qui ne ont pas répondu, ainsi que ceux qui ne fournissent les informations nécessaires.

Je vais passer un peu loin du problème des données manquantes afin de rendre cet exemple plus complet. Si vous préférez, vous pouvez passer à la prochaine rubrique principale. Pour ceux qui veulent se concentrer sur les sujets qui ont fourni Appartenance religieuse sans ignorer totalement ceux qui ne l'ont pas, une autre analyse impliquerait l'utilisation de contrastes orthogonaux non seulement de comparer les non-répondeurs avec tous les intervenants, mais aussi de faire des comparaisons spécifiques parmi les trois groupes connus. Mais gardez à l'esprit que parce que les données ne sont pas MCAR les moyens, en particulier la moyenne générale, est susceptible d'être biaisé. (Si Fondamentalistes sont moins susceptibles de réagir, et si elles ont des scores plus élevés d'optimisme, la moyenne générale d'optimisme sera biaisé vers le bas de ce qu'elle aurait été si elles avaient répondu.)

Vous pouvez utiliser SPSS (OneWay) ou tout autre programme pour effectuer les contrastes en question. (Ou vous pouvez facilement le faire à la main). Supposons que je suis particulièrement intéressé à savoir comment les non-répondeurs diffèrent de la moyenne de tous les intervenants, mais que je suis aussi intéressé à comparer les Modérés avec les deux autres groupes identifiés, puis les Fondamentalistes avec les libéraux. Je peux courir ces contrastes en fournissant SPSS avec les coefficients suivants.

La première de contraste avec les réponses manquantes qui nous ont causé un problème, et les deuxième et troisième contrastes traitent des différences entre les groupes identifiés. Les résultats de cette analyse sont présentés ci-dessous. (J'exécuter ce en utilisant la syntaxe SPSS, car elle produit l'impression plus utile.)

Tableau 3 OneWay Analyse de la variance sur Optimisme avec Contrastes ortogonaux


Avis dans le tableau 3 que les contrastes sont calculés avec et sans la mise en commun des termes d'erreur. Dans notre cas particulier, les écarts sont suffisamment égaux pour nous permettre de mutualiser erreur, mais, en fait, pour ces données, il ne fait aucune différence importante pour le résultat que l'analyse que nous avons utilisé. Dans le tableau 3, vous verrez que tous les contrastes sont importants. Cela signifie que les non-répondeurs sont significativement différents de (et plus optimiste que) les intervenants, que Fondamentalistes et Modérés combinés sont plus optimistes que les libéraux, et que Fondamentalistes sont à leur tour plus optimistes que Modérés.

Je vous ai présenté cette dernière analyse pour faire le point que vous avez pas perdu une chose en incluant les cas manquants dans votre analyse par rapport à l'exécution de l'analyse excluant les observations manquantes. Les deuxième et troisième contrastes sont exactement les mêmes que vous auriez courir si vous aviez utilisé les trois groupes identifiés. Cependant, cette analyse inclut la variabilité des scores Optimisme du groupe manquant pour déterminer le terme d'erreur, vous donnant un peu plus de degrés de liberté. Dans un sens, vous pouvez avoir votre gâteau et le manger aussi, bien que, comme je l'ai mentionné ci-dessus, la moyenne globale est biaisée par rapport à ce qu'il aurait été si nous avons recueilli des données complètes.

Cette situation, où les données sur l'appartenance au groupe manque, est géré par l'analyse ci-dessus. Notez que, autre que la moyenne globale, l'analyse ne dépend pas de la nature du mécanisme derrière les données manquantes, qui est en fait adressé par l'analyse. Ce ne sera pas nécessairement le cas dans l'analyse suivante, où la nature est important de données manquantes.

1.5 Le cas le plus général des disparus variables dépendantes

Nous avons un autre type de problème quand nous avons des données manquantes sur la variable dépendante qui rend les résultats de notre étude beaucoup plus difficile à interpréter. Si nos données sont sous la forme d'une analyse à sens unique de la variance, et si l'on peut supposer que les données manquent complètement au hasard, les choses ne sont pas particulièrement mauvais. Nous allons perdre le pouvoir à cause de petite taille des échantillons, et les moyens de grands groupes seront estimés avec moins d'erreurs que les moyens de petits groupes, mais il n'y aura pas de problèmes avec des estimations biaisées. Mais gardez à l'esprit que je parle ici des données qui manquent complètement au hasard.

Mais supposons que nos données ne manquent pas complètement au hasard. Supposons que l'on compare deux traitements pour l'hypertension. Dans l'étude idéal, nous avons tous les participants prennent les médicaments qu'ils sont prescrits et nous comparons les niveaux de pression artérielle à la fin du traitement. Mais dans le monde réel, nous savons qu'il ya généralement un problème de décrochage scolaire dans les études médicales. En particulier, ceux qui ne sont pas aidés par le traitement sont plus susceptibles d'abandonner ou de mourir. Si un médicament est tout à fait réussie et l'autre est à peu près un échec, la taille de l'échantillon final sera beaucoup plus petit dans le deuxième traitement. De plus, ceux qui restent, et dont la pression artérielle est mesurée par la suite, sont susceptibles d'être ceux qui ont bénéficié du traitement. Donc, si l'on voit que les moyens des deux groupes sont à peu près égale à la fin du traitement, nous pourrions être amenés à la conclusion que les deux traitements sont tout aussi efficaces. En fait, on était un traitement horrible, mais nous n'avions pas les données de ses « échecs ». Dans un tel contexte les données manquantes font l'interprétation des moyens assez risqué. (Peut-être la statistique la plus appropriée serait le taux d'abandon scolaire au lieu de la moyenne.)

Données manquantes Imputation

C'est là que je vais séparer et créer une page Web distincte sur le problème des variables dépendantes manquantes. Les techniques il y a un peu plus sophistiqués que ceux que nous avons vu jusqu'à présent, mais avec un logiciel qui est maintenant généralement disponible, il y a beaucoup que nous pouvons faire pour sauver notre étude. Pour continuer, allez à l'imputation des données manquantes

Solutions logicielles alternatives

Je l'ai montré comment faire avec NORM. On m'a demandé par un ancien étudiant si je pouvais écrire quelque chose qui était une approche étape par étape à l'aide NORM, et ce document est disponible à « MissingDataNorm.html ».

Vous pouvez également faire quelque chose de similaire avec SPSS et SAS. En outre, il existe un programme de R appelé Amelia (en l'honneur d'Amelia Earhart). Je l'ai écrit (ou écrirai) des instructions pour l'utilisation de ces programmes. Un point important, cependant, est que chaque programme utilise son propre algorithme pour imputation des données, et il est pas toujours clair exactement ce que l'algorithme qu'ils utilisent. Pour toutes fins pratiques, il n'a probablement pas d'importance, mais je voudrais savoir.

La page de continuation de la page actuelle se trouve à données manquantes deuxième partie.

Les références

Cohen, J. - Cohen, P. (1983) appliquée analyse de régression multiple / corrélation pour les sciences du comportement Hillsdale, NJ: Erlbaum (2e éd.).. Revenir

Petit, R.J.A. - Rubin, D.B. (1987) L'analyse statistique des données manquantes. New York, Wiley. Revenir







Articles Liés