Indépendance Test avec Chi-Square, Statistique réel à l'aide d'Excel

Précédent ◈ Suivant

La méthode décrite dans la Qualité de l'ajustement peut également être utilisé pour déterminer si deux groupes de données sont indépendants les uns des autres. Ces données sont organisées dans ce qu'on appelle des tableaux de contingence. comme décrit dans l'exemple 1. Dans ce cas, df = - (chiffre colonne - 1) (nombre de lignes 1).

Fonction Excel. La fonction CHISQ.TEST décrit dans Qualité de l'ajustement peut être étendu pour supporter les plages consistant en plusieurs lignes et colonnes. Pour R1 = le tableau de données observées et R2 = le tableau de valeurs attendues, nous avons

CHISQ.TEST (R1, R2) = CHISQ.DIST (x, df) où x est calculée à partir de R1 et R2 dans la définition de 2 Qualité de l'ajustement et df = (nombre de lignes - 1) (chiffre colonne - 1).

Les gammes R1 et R2 doivent avoir la même taille et la forme et ne peuvent contenir que des valeurs numériques.

Indépendance Test avec Chi-Square, Statistique réel à l'aide d'Excel

Figure 1 - les données observées et les valeurs attendues pour l'exemple 1

Nous avons mis l'hypothèse nulle être

H0. Plus haut niveau de scolarité atteint est indépendante de la richesse des parents

Nous utilisons le test du chi-carré, et ont donc besoin de calculer les valeurs attendues qui correspondent aux valeurs observées dans le tableau ci-dessus. Pour ce faire, nous utilisons le fait (par définition 3 des concepts de probabilité de base) que si A et B sont des événements indépendants alors P (A ∩ B) = P (A) ∙ P (B). Nous supposons également que les proportions de l'échantillon sont bonnes estimations pour les probabilités des valeurs attendues.

Nous montrons maintenant comment construire la table des valeurs attendues (à savoir, les valeurs attendues de la figure 1). Nous savons que 45 des 175 personnes de l'échantillon proviennent de familles riches, et donc la probabilité que quelqu'un dans l'échantillon est issu d'une famille riche est 45/175 = 25,7%. De même, la probabilité que quelqu'un dans l'échantillon est diplômé de l'université est 68/175 = 38,9%. Mais en fonction de l'hypothèse nulle, l'événement d'être d'une famille riche est indépendant diplômé de l'université, et ainsi la probabilité attendue des deux événements est tout simplement le produit des deux événements, soit 25,7% ∙ 38,9% = 10,0%. Ainsi, en fonction de l'hypothèse nulle, nous nous attendons à ce que 10,0% de 175 = 17,5 personnes sont d'une famille riche et ont obtenu un diplôme universitaire.

De cette façon, nous pouvons remplir le tableau des valeurs attendues. On commence par le réglage de tous les totaux dans le tableau des valeurs devrait être le même que le total correspondant à la table de valeurs observées (par exemple cellule K6 contient la formule = E6). Nous avons fixé la valeur de chaque cellule dans le tableau des valeurs prévue pour être

(Rangée totale totale ∙ col) / total

Par exemple. H6 cellule contient la formule = K6 * H9 / K9. Une autre approche pour remplir toutes les cellules dans le tableau des valeurs attendu est de placer la formule du tableau suivant dans la gamme H6: J8 (puis appuyez sur Ctrl-Maj-Entrée):

Voir Opérations Matrice pour plus d'informations sur la fonction du tableau de MMULT. Nous pouvons maintenant calculer la valeur p pour le test statistique chi-carré comme TEST.KHIDEUX (obs. Exp. Df) où obs est la matrice 3 × 3 des valeurs observées, Exp = 3 × 3 tableau de valeurs attendues et df = ( compter 1) (colonne - - nombre de lignes 1) = 2 2 = ∙ 4. Depuis

TEST.KHIDEUX (B6: D8, H6: J8) = 0,003273 < .05 = α

nous rejetons l'hypothèse nulle et conclure que le niveau de scolarité atteint n'est pas indépendante de la richesse des parents.

Exemple 2. Un chercheur veut savoir s'il y a une différence significative dans deux thérapies pour guérir les patients de dépendance à la cocaïne (définie comme ne pas prendre de la cocaïne pendant au moins 6 mois). Elle teste 150 patients et obtient les résultats dans la partie supérieure gauche du tableau ci-dessous (marqués valeurs observées).

Figure 2 - tests du chi carré pour l'indépendance

Nous établissons l'hypothèse nulle suivante:

H0. Il n'y a pas de différence entre les deux traitements de la capacité de guérir la dépendance à la cocaïne

On calcule ensuite les valeurs attendues des valeurs observées et la p-valeur de la statistique du chi carré comme nous l'avons fait dans l'exemple 1. Cette fois, nous utiliserons l'approche utilisée dans l'exemple 2 de qualité de l'ajustement. à savoir le calcul de chi-carré de statistique de test de Pearson directement (en utilisant 2 Définition de la qualité de l'ajustement). La valeur de cette statistique est 5,516 (D17 cellulaire sur la figure 2). Étant donné que nous avons affaire à une 2 × 2 tableau d'observations, df = (2 - 1) (2 - 1) = 1. Enfin, nous observons que

p-value = CHIDIST (χ 2 df) = CHIDIST (5.516,1) = 0,0188 < .05 = α

χ 2 = -crit CHIINV (α, df) = CHIINV (.05,1) = 3,841 < 5.516 = χ 2 -obs

et nous rejetons l'hypothèse nulle et conclure qu'il ya une différence significative dans le taux de guérison entre les deux thérapies.

Comme il a été mentionné dans la bonté de l'ajustement. le test du maximum de vraisemblance est une version plus précise du test du chi carré employé jusqu'à présent. Le côté inférieur droit de la feuille de la figure 2 montre comment calculer la statistique de probabilité maximale (en utilisant une définition de Qualité de l'ajustement). La valeur de cette statistique est 5,725, ce qui est très différent de la statistique de test que nous avons obtenu en utilisant le test de Pearson. Étant donné que cette statistique est d'environ chi-carré avec un degré de liberté, l'analyse est tout à fait similaire:

p-value = CHIDIST (χ 2 df) = CHIDIST (5.725,1) = 0,015 < .05 = α

χ 2 = -crit CHIINV (α, df) = CHIINV (.05,1) = 3,841 < 5.725 = χ 2 -obs

et donc une fois de plus, nous rejetons l'hypothèse nulle et conclure, il y a une différence significative dans les résultats pour les deux thérapies.

Observation. Il est très important d'inclure toutes les observations du test. Par exemple. si dans l'exemple 2, nous testons seulement guéries par rapport à la thérapie 1 et 2, nous obtiendrons des résultats erronés. Nous avons besoin de ne pas inclure Guéri ainsi que guéries.

Fonctions réelles statistiques Excel. Les fonctions supplémentaires suivantes sont fournies dans le réel Pack Statistiques des ressources:

CHI_STAT2 (R1, R2) = la statistique du chi carré de Pearson pour les valeurs d'observation dans la fourchette R1 et valeurs moyennes dans la gamme R2

CHI_MAX2 (R1, R2) = statistique du chi carré maximum de vraisemblance pour des valeurs d'observation dans la fourchette R1 et valeurs moyennes dans la gamme R2

CHI_STAT (R1) = la statistique du chi carré de Pearson pour les valeurs d'observation dans la fourchette R1. Ceci est CHI_STAT2 (R1, R2) où R2 représente les valeurs moyennes calculées à partir de R1.

CHI_MAX (R1) = statistique du chi carré maximum de vraisemblance pour des valeurs d'observation dans la fourchette R1. Ceci est CHI_MAX2 (R1, R2) où R2 représente les valeurs moyennes calculées à partir de R1.

CHI_TEST (R1) = valeur p pour la statistique du chi carré de Pearson pour les valeurs d'observation dans la fourchette R1. Ceci est TEST.KHIDEUX (R1, R2) où R2 représente les valeurs moyennes calculées à partir de R1.

CHI_MAX_TEST (R1) = valeur p statistique du chi carré maximum de vraisemblance pour des valeurs d'observation dans la fourchette R1

Les gammes R1 et R2 ne doivent contenir que des valeurs numériques.

Statistiques réel des données Outil d'analyse. De plus, le vrai statistiques sur les ressources pack fournit un outil supplémentaire d'analyse de données de test du chi carré. Pour utiliser cet outil pour l'exemple 1 entrer Ctrl-m et sélectionnez l'option test du chi carré. Une boîte de dialogue comme dans la figure 3 apparaît.

Figure 3 - Boîte de dialogue pour le test du chi carré

Insérez les données d'observation dans la plage d'entrée (hors les totaux, mais le cas échéant, y compris les têtes de ligne et colonne, à savoir gamme A5: J8), cliquez sur le bouton radio de format Excel, puis appuyez sur le bouton OK. Laissez l'option test exact de Fisher sans contrôle (voir test exact de Fisher pour l'utilisation de cette option).

L'outil d'analyse de données construit un tableau avec les valeurs et effectue à la fois les essais de Pearson et chi-carré maximum de vraisemblance prévu. L'ampleur de l'effet Cramer, et pour 2 × 2 tables de contingence la cote de la taille de l'effet du taux, comme décrit dans l'ampleur de l'effet de Chi-carré sont également calculés. La sortie de l'outil d'analyse de données pour les données dans l'exemple 1 en représenté sur la figure 4.

$Indépendance Test avec Chi-Square, Statistique réel en utilisant Excel (pearson \'s chi-square)$

Figure 4 - Données du chi carré sortie de l'outil d'analyse pour l'exemple 1

Observation. Comme décrit dans la qualité de l'ajustement. la fréquence prévue pour chaque cellule dans la table de contingence doit généralement être d'au moins 5. Avec de petites tables (en particulier 2 x 2 tables), des cellules avec des fréquences attendues d'au moins 10 serait préférable.

Observation. En plus de l'habituel format de données d'entrée Excel, l'outil d'analyse de données statistiques réel du chi carré de test prend en charge un autre format de données d'entrée appelé format standard. Ce format est similaire à celui utilisé par SPSS et d'autres programmes d'analyse statistique.

Figure 5 - Tests de données et chi carré pour l'exemple 3

Une fois entrez à nouveau Ctrl-m et sélectionnez l'outil d'analyse de données Chi-carré. Lorsque la boîte de dialogue de la figure 3, insérez A3: B41 dans la plage d'entrée. cliquez sur le bouton radio de format standard et appuyez sur le bouton OK.

L'outil d'analyse de données d'abord construit un tableau de contingence (plage de D5: F8 de la figure 5) et effectue le même type d'analyse que pour l'exemple 1 et 2. Etant donné que sig = no (cellule R11 ou R12) on ne peut pas rejeter l'hypothèse nulle selon laquelle un le diplômés de l'étudiant de l'université est indépendante du niveau de revenu de ses / ses parents.

Simone,
Sans plus d'informations, je ne peux pas dire à coup sûr, mais Mann-Whitney est couramment utilisé pour ce genre de problèmes.
Charles

J'ai une question simple. J'utilise la fonction CHISQ.TEST pour un test du chi carré. L'explication prétend que la fonction retourne la statistique du chi carré et les degrés de liberté. Mais la seule sortie que je reçois est la valeur P.

Comment puis-je obtenir le reste de la sortie? Ou, comment puis-je traduis la valeur P en une valeur du chi carré et les degrés de liberté?

Mike,
CHISQ.TEST ne calcule que la valeur de p. La page Web dit que CHISQ.TEST (R1, R2) = CHISQ.DIST (x, df), et le côté droit est une valeur p.
Pour obtenir la statistique du chi carré et degrés de liberté:
df = (nombre de lignes dans R1 - 1) (nombre de colonnes dans R1 - 1)
stat chi carré peut être calculé manuellement comme décrit sur la page Web de Goodness Fit ou en utilisant la fonction statistique réel CHI_STAT2 (R1, R2) ou CHI_STAT (R1).
Charles

dit rajesh bansal:

Articles Liés

Précédent ◈ Suivant