Statistiques descriptives

Les statistiques descriptives sont généralement distinguées des statistiques déductives. Avec des statistiques descriptives que vous décrivez simplement ce qui est ou ce que les données montrent. Avec des statistiques déductives, vous essayez d'arriver à des conclusions qui vont au-delà des données immédiates seul. Par exemple, nous utilisons la statistique déductive pour essayer de déduire de l'échantillon des données que la population pourrait penser. Ou, nous utilisons la statistique déductive pour porter des jugements de la probabilité qu'une différence observée entre les groupes est fiable un ou qui aurait pu se produire par hasard dans cette étude. Ainsi, nous utilisons la statistique déductive pour tirer des conclusions de nos données à des conditions plus générales; nous utilisons les statistiques descriptives simplement pour décrire ce qui se passe dans nos données.







Analyse univariée

L'analyse univariée implique l'examen dans les cas d'une variable à la fois. Il y a trois caractéristiques majeures d'une seule variable que nous avons tendance à regarder:

  • la distribution
  • la tendance centrale
  • la dispersion

Dans la plupart des cas, nous décrire tous les trois de ces caractéristiques pour chacune des variables de notre étude.


Tableau 1. Tableau de distribution de fréquence.


Figure 1. Répartition Fréquence graphique à barres.

  • pourcentage de personnes à différents niveaux de revenu
  • pourcentage de personnes dans les différentes tranches d'âge
  • pourcentage de personnes dans différentes gammes de scores aux tests standardisés

Tendance centrale. La tendance centrale d'une distribution est une estimation du « centre » d'une distribution des valeurs. Il existe trois grands types d'estimations de la tendance centrale:

La moyenne ou moyenne est probablement la méthode la plus couramment utilisée pour décrire la tendance centrale. Pour calculer la moyenne tout ce que vous faites est d'ajouter toutes les valeurs et diviser par le nombre de valeurs. Par exemple, le score du quiz ou d'une moyenne est déterminée en additionnant tous les scores et en divisant par le nombre d'étudiants qui suivent l'examen. Par exemple, prendre en compte les valeurs de score de test:

La somme de ces valeurs est de 8 167, de sorte que la moyenne est 167/8 = 20,875.

La médiane est le score trouvé au milieu exact de l'ensemble des valeurs. Une façon de calculer la médiane est de lister toutes les partitions dans l'ordre numérique, puis recherchez le score dans le centre de l'échantillon. Par exemple, s'il y a 500 scores dans la liste, le score # 250 serait la médiane. Si nous commandons les 8 scores indiqués ci-dessus, nous obtenons:







Il y a 8 points et le score # 4 et # 5 représentent le point à mi-chemin. Étant donné que ces deux scores sont 20, la médiane est 20. Si les deux scores intermédiaires ont des valeurs différentes, vous devez interpoler pour déterminer la médiane.

Le mode est la valeur la plus fréquente dans l'ensemble des scores. Pour déterminer le mode, vous pouvez à nouveau commander les scores comme indiqué ci-dessus, puis compter chacun. La valeur la plus fréquente est le mode. Dans notre exemple, la valeur 15 se produit trois fois et est le modèle. Dans certaines distributions, il y a plus d'une valeur modale. Par exemple, dans une distribution bimodale il y a deux valeurs qui se produisent le plus souvent.

Notez que pour le même ensemble de 8 scores nous avons trois valeurs différentes - 20,875, 20 et 15 - pour la moyenne, la médiane et le mode respectivement. Si la distribution est vraiment normale (à savoir, en forme de cloche), la moyenne, la médiane et le mode sont tous égaux entre eux.

Dispersion. Dispersion fait référence à la diffusion des valeurs autour de la tendance centrale. Il y a deux mesures communes de dispersion, la portée et l'écart-type. La gamme est tout simplement la valeur la plus élevée, moins la valeur la plus faible. Dans notre distribution par exemple, la valeur élevée est 36 et le bas est 15, de sorte que la plage est 36-15 = 21.

L'écart type est une estimation de la dispersion plus précise et détaillée, car une valeur aberrante peut exagérer considérablement la gamme (comme ce fut le cas dans cet exemple où la valeur aberrante unique de 36 se distingue du reste des valeurs. L'écart-type montre la relation qui ensemble de scores a la moyenne de l'échantillon permet de prendre à nouveau l'ensemble des scores.:

pour calculer l'écart-type, on trouve d'abord la distance entre chaque valeur et la moyenne. Nous savons par plus haut que la moyenne est 20,875. Ainsi, les différences par rapport à la moyenne sont:

15 à 20,875 = -5,875
20 à 20,875 = -0,875
21 à 20,875 = 0,125
20 à 20,875 = -0,875
36 à 20,875 = 15,125
15 à 20,875 = -5,875
25 à 20,875 = 4,125
15 à 20,875 = -5,875

Notez que les valeurs qui sont inférieures à la moyenne ont des différences négatives et des valeurs au-dessus ont positives. Ensuite, nous interpréter chaque écart:

-* 5,875 = -5,875 34,515625
-* 0,875 -0,875 = 0,765625
+0,125 * 0,125 = 0,015625
-* 0,875 -0,875 = 0,765625
* 15,125 15,125 = 228,765625
-* 5,875 = -5,875 34,515625
+4.125 * 4,125 = 17,015625
-* 5,875 = -5,875 34,515625

Maintenant, nous prenons ces « carrés » et les résumons pour obtenir la somme des carrés de valeur (SS). Ici, la somme est 350,875. , Nous divisons suivant cette somme par le nombre de scores moins 1. Ici, le résultat est 350,875 / 7 = 50,125. Cette valeur est connue comme la variance. Pour obtenir l'écart-type, nous prenons la racine carrée de la variance (rappelez-vous que nous avons au carré les écarts plus tôt). Ce serait RACINE (50,125) = 7,079901129253.

Dans la partie supérieure du rapport, le numérateur, on voit que chaque score a la moyenne soustraite de celle-ci, la différence est élevée au carré, et les carrés sont additionnés. Dans la partie inférieure, nous prenons le nombre de scores moins 1. Le rapport est la variance et la racine carrée est l'écart-type. En anglais, on peut décrire l'écart-type comme:

la racine carrée de la somme des carrés des écarts à la moyenne divisée par le nombre de partitions moins une

Bien que nous puissions calculer ces statistiques univariées à la main, il devient assez fastidieux quand vous avez plus de quelques valeurs et des variables. est capable de les calculer facilement pour vous chaque programme de statistiques. Par exemple, je mets les huit scores dans SPSS et a obtenu le tableau suivant en conséquence:







Articles Liés