CHI CARRÉ D'ESSAI

Chi-carré testfor catégories de données

Contexte: Le t de Student-test et analyse de la variance sont utilisées pour analyser les données de mesure qui, en théorie, sont variables en continu. Entre une mesure de, disons, 1 m et 2 m m il y a une plage continue de 1,0001 à 1,9999 m m.







Mais dans certains types d'expériences que nous souhaitons enregistrer combien de personnes tombent dans une catégorie particulière, comme les yeux bleus ou les yeux bruns, les cellules ou non mobiles, etc. Ces motiles compte, ou enumerationdata. sont discontinues (1, 2, 3, etc.) et doivent être traités différemment des données continues. Souvent, le test est approprié chi carré (c 2), que nous utilisons pour vérifier si le nombre d'individus dans différentes catégories correspondent une hypothèse nulle (une attente de quelque sorte).

l'analyse du chi carré est simple et précieux pour toutes sortes de choses - pas seulement mendélienne croix! Sur cette page, nous construisons des exemples les plus simples aux plus complexes. Lorsque vous avez passé par les exemples que vous devriez consulter la liste de contrôle des procédures et des pièges potentiels.

Supposons que le rapport des hommes aux étudiantes de la Faculté des sciences est exactement 1: 1, mais dans la classe Pharmacologie Honneurs au cours des dix dernières années, il y a eu 80 femmes et 40 hommes. Est-ce un écart important par l'attente? Nous procédons comme suit (mais notez que nous allons négliger un point très important que nous traiterons plus loin).

Définir une table comme indiqué ci-dessous, avec les « observés » chiffres et les nombres « attendus » (à savoir notre hypothèse nulle).

Puis soustraire chaque « attendu » valeur de la valeur « observée » correspondant (O-E)

Square The "O-E" valeurs, et diviser chacune par le pertinent "attendu" pour obtenir la valeur (O-E) 2 / E

Ajouter toutes les valeurs (O-E) 2 / E et appeler le total "X 2"

Remarques:
* 1 Ce total doit toujours être le même que le total observé
* 2 Ce total doit toujours être égale à zéro
* 3 L'hypothèse nulle était évidente ici: on nous dit qu'il ya un nombre égal d'hommes et de femmes dans la Faculté des sciences, donc nous pouvons nous attendre qu'il y aura un nombre égal d'hommes et de femmes en pharmacologie. Nous avons donc divisé notre nombre total d'étudiants de pharmacologie (120) dans un rapport 1: 1 pour obtenir notre # 145; attendu # 146; valeurs.

Maintenant, nous devons comparer notre X 2 valeur avec un c 2 (chi carré) valeur dans un tableau de c 2 avec n-1 degrés de liberté (où n est le nombre de catégories à savoir 2 dans notre cas -. Hommes et femmes). Nous avons seulement un degré de liberté (n-1). De la c 2 table, on trouve une « valeur critique de 3,84 pour p = 0,05.

Si notre valeur calculée de X 2 est supérieure à la valeur critique de c 2 nous avons une différence significative de l'attente. En fait, notre calculé X 2 (13,34) dépasse même la valeur c 2 sous forme de tableaux (10,83) pour p = 0,001. Cela montre un départ extrême de l'attente. Il est encore possible que nous aurions pu obtenir ce résultat par hasard - une probabilité inférieure à 1 en 1000. Mais nous pourrions être 99,9% que certains facteurs conduit à un « biais » vers les femmes entrant dans Honneurs pharmacologie. [Bien sûr, les données ne nous disent pas pourquoi il en est ainsi - il pourrait être auto-sélection ou toute autre raison]

Maintenant, répétez cette analyse, mais sachant que 33,5% des étudiants de la Faculté des sciences sont des hommes

nombres observés (O)

Nombres prévus (E)

* Note 1: Nous savons que le total prévu doit être 120 (le même que le total observé), afin que nous puissions calculer les chiffres attendus 66,5% et 33,5% de ce total.

Note * 2: Ce total doit toujours être égale à zéro.

Quelques points importants sur chi-carré

Chi carré est une distribution mathématique avec des propriétés qui nous permettent d'assimiler nos valeurs calculées X 2 à c 2 valeurs. Les détails ne nous concerne pas, mais nous devons tenir compte de certaines limites pour que c 2 peut être utilisé valablement pour les tests statistiques.

(I) de correction de Yates pour deux catégories de données (un degré de liberté)

Quand il n'y a que deux catégories (par exemple mâle / femelle) ou, plus exactement, quand il n'y a qu'un seul degré de liberté, le test c 2 ne doit pas, strictement, être utilisé. Il y a eu diverses tentatives pour corriger cette lacune, mais le plus simple est d'appliquer la correction de Yates à nos données. Pour ce faire, nous soustrayons simplement 0,5 de chaque valeur calculée de « O-E », en ignorant le signe (plus ou moins). En d'autres termes, un « O-E » valeur de 5 devient +4,5 et un « O-E » valeur de -5 devient -4,5. Pour signifier que nous réduisons la valeur absolue, en ignorant le signe, nous utilisons des lignes verticales: | O-E | -0,5. Ensuite, nous continuons comme d'habitude, mais avec ces nouvelles (corrigées) des valeurs OE: on calcule (avec les valeurs corrigées) (OE) 2. (OE) 2 / E et puis additionnez les valeurs (OE) 2 / E pour obtenir X 2. correction de Yates applique que lorsque nous avons deux catégories (un degré de liberté).







Nous ignorions ce point dans notre première analyse du nombre d'étudiants (ci-dessus). Donc, est ici à nouveau la table, en utilisant la correction de Yates:

Dans ce cas, les chiffres observés étaient si différents de l'attendu rapport 1: 1 que la correction de Yates a fait peu de différence - il ne réduit la valeur de X 2 13,34 à 12,67. Mais il y aurait d'autres cas où la correction de Yates ferait la différence entre l'acceptation ou le rejet de l'hypothèse nulle.

(Ii) Les limites sur le nombre dans les catégories « attendues »

Encore une fois pour satisfaire les hypothèses mathématiques sous-jacentes c 2. les valeurs attendues devraient être relativement importante. Les règles simples suivantes sont appliquées:

  • aucune catégorie prévue devrait être inférieure à 1 (peu importe ce que les valeurs observées sont)
  • Et pas plus d'un cinquième des catégories attendues devrait être inférieur à 5.

Que pouvons-nous faire si nos données ne répondent pas à ces critères? Nous pouvons soit recueillir des échantillons plus importants afin que nous les critères satisfaire, ou nous pouvons combiner les données pour les petites catégories « attendues » jusqu'à ce que leur valeur attendue combinée est de 5 ou plus, puis faire un c 2 test sur les données combinées. Nous verrons un exemple ci-dessous.

Chi carré avec trois ou plusieurs catégories

Supposons que nous voulons tester les résultats d'un croisement génétique mendélienne. On commence par 2 parents de génotype AABB et aabb (où A et A représentent les allèles dominants et récessifs d'un gène, et B et B représentent les allèles dominants et récessifs d'un autre gène).

Nous savons que toute la génération F1 (première descendance de génération de ces parents) aura le génotype AaBb et que leur phénotype affiche les deux allèles dominants (par exemple dans les mouches des fruits toute la génération F1 aura des yeux rouges plutôt que les yeux blancs, et des ailes normales plutôt à ailes courtes).

Cette génération F1 produira 4 types de gamète (AB, Ab, AB et ab), et quand nous auto-cross, la génération F1, nous finirons avec une variété de génotypes de F2 (voir le tableau ci-dessous).

L'une de nos catégories attendues (ab) est inférieur à 5 (en italique gras dans le tableau). Nous avons donc combiné cette catégorie avec l'un des autres et doit ensuite analyser les résultats par rapport à un rapport attendu de 9: 3: 4. Les chiffres dans les catégories attendues ont été saisies en divisant le total (70) dans ce rapport.

Maintenant, avec 3 catégories que nous avons seulement 2 degrés de liberté. Le reste de l'analyse se fait comme d'habitude, et nous avons encore aucune raison de rejeter l'hypothèse nulle. Mais il est une hypothèse nulle différente: le rapport attendu est de 9: 3: 4 (double-dominant: single dominant Ab: single aB dominant, plus le double récessif ab).

Chi-carré: doubles classifications

Supposons que nous avons une population de spores fongiques qui tombent clairement en deux catégories de taille, grandes et petites. Nous incubons ces spores sur gélose et compter le nombre de spores qui germent en produisant une seule excroissance ou plusieurs excroissances.

120 spores grandes, dont 80 forment des excroissances multiples et 40 produisent des excroissances simples
60 petites spores, dont 18 forment des excroissances multiples et 42 produisent des excroissances simples

Y at-il une différence significative de la façon que les grandes et petites spores germent?

1. Définir une table comme suit

Dans ce cas, il n'y a pas de « théorie » qui nous donne une hypothèse nulle évidente. Par exemple, nous avons aucune raison de supposer que 55% ou 75% ou tout autre pourcentage de grandes spores produiront excroissances multiples. Donc, l'hypothèse nulle est plus sensible que les deux grandes et les petites spores se comportent de la même et que les deux types de spores produisent 50% de multiples excroissances et 50% des excroissances simples. En d'autres termes, nous testerons contre 1: 1: 1: 1. Ensuite, si nos données ne sont pas d'accord avec cette attente, nous aurons la preuve que la taille des spores affecte le type de germination.

3. calculer les fréquences attendues, basé sur l'hypothèse nulle.

Cette étape est compliquée par le fait que nous avons un nombre différent de grandes et petites spores, et un nombre différent de multiples par rapport à excroissances simples. Mais nous pouvons trouver les fréquences attendues (a. B. C et d) en utilisant le grand total (180) et les totaux de colonnes et de lignes (voir tableau ci-dessous).

Pour trouver la valeur attendue « a » Nous savons que 98 au total spores avaient plusieurs excroissances et que 120 des 180 spores au total étaient grandes. Ainsi, un est 98 (120/180) = 65,33.

De même, pour trouver b nous savons que 98 spores avaient plusieurs excroissances et que 60 des 180 spores au total étaient petits. Donc, b est 98 (60/180) = 32,67. [En fait, nous aurions pu faire cela simplement en soustrayant un de la 98 attendue ligne totale - le total attendu doit toujours être le même que le total observé]

Pour trouver c Nous savons que 82 spores avaient excroissances simples et que 120 des 180 spores au total étaient grandes. Donc c est 82 (120/180) = 54,67.

Pour trouver d, nous savons que 82 spores avaient excroissances simples et que 60 des 180 spores au total étaient petits. Alors d est 82 (60/180) = 27,33. [Cette valeur pourrait aussi avoir été obtenue par soustraction]

Vous pourriez penser qu'il ya 3 degrés de liberté (car il y a 4 catégories). Mais il est en fait un degré de liberté! La raison est que nous perdons un degré de liberté parce que nous avons 4 catégories, et nous perdons encore 2 degrés de liberté parce que nous avons utilisé deux informations pour construire notre hypothèse nulle - nous avons utilisé un total de colonne et un total de ligne. Une fois que nous avions utilisé ces il nous aurait fallu qu'une seule entrée de données afin de remplir le reste des valeurs (donc nous avons un degré de liberté).

Bien sûr, avec un degré de liberté que nous devons utiliser la correction de Yates (soustraire 0,5 de chaque valeur O-E).

5. Exécutez l'analyse comme d'habitude. Calcul O-E, (O-E) et 2 (O-E) 2 / E, pour chaque catégorie, puis additionner le (O-E) 2 / E. pour obtenir des valeurs X 2 et de tester cette contre deux c.

Le tableau suivant présente une partie de la marche. La somme des valeurs indiquées en rouge donne X 2 20.23

Nous comparons la valeur X 2 avec un c 2. sous forme de tableau avec un degré de liberté. Notre calculé X 2 dépasse la valeur c 2 sous forme de tableaux (10,83) pour p = 0,001. Nous concluons qu'il ya un départ très significatif de l'hypothèse nulle - nous avons des preuves très forte que les grandes spores et petites spores présentent un comportement de germination différent.

Liste de contrôle: les procédures et les pièges potentiels

Chi carré est un test très simple à utiliser. Les seules choses potentiellement difficile à ce sujet sont les suivantes:

Si vous suivez les exemples donnés sur cette page, vous ne devriez pas avoir trop de difficultés.

Quelques points à surveiller:

ESSAIS STATISTIQUES:
Student'st-test pour comparer les moyennes de deux échantillons
test apparié-échantillons. (Comme un t -test, mais utilisé lorsque les données peuvent être groupées par paires)
L'analyse de la variance pour un moyen de comparaison de trois ou plusieurs échantillons:

Chi-squaredtest pour les catégories de données
distribution de Poisson pour les données de comptage
Le coefficient de corrélation et une analyse de régression pour le montage de la ligne:

Transformation des données: les pourcentages, logarithmes, probits et valeurs arcsin







Articles Liés