formule exacte Yates - correction en R - Cross Validé

Si je lance un chi carré en R avec la correction de Yates, je reçois des résultats légèrement différents de le faire à la main. Quelle est la formule exacte R utilise pour la correction de Yates? J'utilise le code simple:







(Pour un tableau 2x2, si df = 1 et R ne la correction de Yates automatiquement)

En revanche (bien, dans excel), je soustrayant 0,5 à partir de chaque valeur prévue observée (dont je puis carré, puis diviser par le attendu): = la somme de tous les ((O-E) -0,5) ^ 2 / E.

Ceci est clairement pas la formule R utilise pour obtenir le chi carré avec la correction de Yates, mais je ne peux pas sembler trouver ce qu'ils n'utilisent. Est-ce que quelqu'un sait?

Ajout de données à partir de SO publication: Quelques exemples de données (dans le tableau enregistré en tant que Csv):

Avec correction de Yates et R chi carré de = 4,4 et p = 0,035

Avec ma propre formule retranchant 0,5 chi carré = 5,78 et p = 0,0209

la correction de Yates modifie le $ \ chi ^ 2 statistique de $ pour un tableau de contingence 2 \ times $ 2 $ dans le but de corriger l'erreur faite en utilisant un (continu) $ \ chi ^ 2 Répartition de $ pour approcher le (discret) distribution d'échantillonnage de la statistique.

Rappelons que le \ chi de $ ^ 2 $ statistique est basée sur les résidus dans un tableau de contingence: les différences entre les décomptes observés $ O $ et de l'attente $ E $ dans chaque cellule. (Les attentes ne doivent pas être des nombres entiers). En fait, seules les dimensions des résidus vraiment d'importance, car les résidus sont toujours au carré. la correction de Yates soustrait 1 / $ 2 $ à partir de la taille de chaque résiduel. Ainsi, la formule originale







Le code R pour chisq.test semble être un peu plus subtil. Voici la section pertinente. (Il est enterré au sein de certaines conditions imbriquées qui ne sont pas pertinentes.)

Dans ce code, x stocke le nombre de cellules (jouant ainsi le rôle de $ O $ de) et E est un réseau parallèle de valeurs attendues. Le conditionnel externe (si) assure la correction est appliquée uniquement lorsque (a) il est demandé, comme il est indiqué par la valeur logique de correct. et (b) ces chiffres sont indiqués pour un 2 \ times $ 2 $ table.

L'utilisation de 1 min remplace $ / 2 $ dans la correction par le plus petit des résidus absolus (si l'un d'entre eux est inférieure à 1/2 $). Cela assure qu'aucun des résidus absolus corrigées est faite quelconque inférieur à zéro. Ce petit nicety n'est pas indiqué dans l'article de Wikipedia. Bien que pas la même que la proposition initiale de Yates, il peut être interprété comme une variante de celui-ci dans laquelle aucune valeur corrigée est jamais rendue négative:

La citation est à la p. 222

Yates, F (1934). « Tableau de contingence impliquant un petit nombre et le test de χ2 ». Supplément au Journal de la Royal Statistical Society 1 (2): 217-235.

chi-carré de R utilise:

Lorsque YATES pourrait être 0 (par exemple si aucune correction est appliquée) ou

qui est par défaut utilisé dans le cas de 2x2; qui est-à-dire si $ | O_i-E_i |<\frac12$ (as it will be if $O_i=E_i$), then the correction will be smaller than $\frac12$ (0 if they're equal).

Cet ajustement (parfois) à l'habituel « $ \ frac12 $ » fait équivalent à

ce qui correspond à la forme finale de 2x2 donnée dans l'article de Wikipedia:

qui est décrit comme mieux « dans certains cas ». [Conseils réel de Yates dans son article 1934 était plus compliqué que les deux formules.]

répondit le 3 juillet '15 à 12h59







Articles Liés