Concepts de base de la corrélation, des statistiques réelles avec Excel

Définition 1. La covariance entre deux échantillons variables aléatoires x et y est une mesure de l'association linéaire entre les deux variables, et est défini par la formule







Observation. La covariance est similaire à la variance, à l'exception que la covariance est définie pour deux variables (x et y ci-dessus), tandis que la variance est définie pour une seule variable. En fait, cov (x, x) = var (x).

La covariance peut être considéré comme la somme des correspondances et des décalages entre les paires d'éléments de données pour x et y: une correspondance se produit lorsque les deux éléments de la paire se trouvent sur le même côté de leur moyenne; un décalage se produit quand un élément de la paire est supérieure à sa moyenne et l'autre est inférieure à la moyenne.

La covariance est positive lorsque les matchs l'emportent sur les discordances et est négative lorsque les discordances l'emportent sur les matches. La taille de la covariance en valeur absolue indique l'intensité de la relation linéaire entre x et y: plus la relation linéaire la plus grande la valeur de la covariance sera. La taille de la covariance est également influencé par l'importance des éléments de données, etc., afin d'éliminer le facteur d'échelle le coefficient de corrélation est utilisée comme métrique sans échelle de la relation linéaire.

Définition 2. Le coefficient de corrélation entre deux échantillons variables x et y est une mesure sans échelle d'association linéaire entre les deux variables, et est donnée par la formule

Si nécessaire, nous pouvons écrire r comme rxy pour montrer explicitement les deux variables.

Nous utilisons également le coefficient terme de détermination pour r 2

Observation. Tout comme nous l'avons vu pour la variance des mesures de Variabilité. la covariance peut être calculée comme

En conséquence, on peut aussi calculer le coefficient de corrélation

Observation. Si r est proche de 1 alors x et y sont positivement corrélés. Une corrélation linéaire positive signifie que des valeurs élevées de x sont associés à des valeurs élevées de valeurs y et x sont faibles associés à de faibles valeurs de y.

Si r est proche de -1, x et y sont corrélées négativement. Une corrélation linéaire négative signifie que des valeurs élevées de x sont associés à de faibles valeurs de y et de faibles valeurs de x sont associés à des valeurs élevées de y.

Lorsque r est proche de 0, il y a peu de relation linéaire entre x et y.

Observation. Nous avons défini covariance et le coefficient de corrélation pour les échantillons de données. On peut aussi définir le coefficient de corrélation et covariance pour les populations, en fonction de leur fonction de densité de probabilité (pdf).

Définition 3. La covariance entre deux variables aléatoires x et y pour une population de pdf discrète ou continue est définie par

où E [] est la fonction d'espérance tel que décrit dans l'attente.

Définition 4. Le coefficient de corrélation (moment de produit de Pearson) pour deux variables x et y pour une population pdf discrète ou continue est

Propriété 4. Ce qui suit est vrai pour les définitions de l'échantillon et la population de covariance:

Si x et y sont indépendants alors Cov (x, y) = 0

Propriété 5: Les conditions suivantes sont remplies à la fois pour les échantillons et les populations:

Observation. Cliquez ici pour d'autres propriétés de covariance et la corrélation, ainsi que les preuves des propriétés indiquées ci-dessus.

Observation. Il se trouve que r est pas une estimation non biaisée de ρ. Une estimation relativement non biaisée de ρ 2 est donnée par le coefficient de détermination ajusté:

Tout en est une meilleure estimation du coefficient de la population de la détermination, en particulier pour les petites valeurs de n. pour les grandes valeurs de n, il est facile de voir que ≈r 2. Notez aussi que ≤r 2. et tout peut être négatif, ce qui est relativement rare.

Une estimation encore plus biaisée du coefficient de corrélation de population associée à la distribution normale des données est donnée par

Fonctions Excel: Excel fournit les fonctions suivantes en ce qui concerne le coefficient de corrélation et covariance:

COVAR (R1, R2) = la covariance de population entre les données dans des réseaux R1 et R2. Si R1 contient des données x1, ..., xn>, R2 contient 1, ..., yn>, = MOYENNE (R1) et = MOYENNE (R2), puis COVAR (R1, R2) qui a la valeur

Ceci est la même que la formule donnée dans la définition 1, avec n remplacé par n - 1. Excel ne dispose pas d'une version de l'échantillon de la covariance, bien que cela puisse être calculé selon la formule:

CORREL (R1, R2) = le coefficient de corrélation de données dans des réseaux R1 et R2. Cette fonction peut être utilisée aussi bien pour les versions de l'échantillon et la population du coefficient de corrélation. Notez que:

CORREL (R1, R2) = COVAR (R1. R2) / (STDEVP (R1) * STDEVP (R2)) = la version de la population du coefficient de corrélation

CORREL (R1, R2) = n * COVAR (R1 R2.) / (STDEV (R1) * STDEV (R2) * (n - 1)) = la version d'échantillon du coefficient de corrélation

Excel fournit également les fonctions suivantes,, moins utiles:

PEARSON (R1, R2) = CORREL (R1, R2)

LRQ (R1, R2) = CORREL (R1, R2) ^ 2

Enfin, il est un outil d'analyse de données de corrélation que nous démontrons dans l'exemple 1 de corrélation multiple.

Fonctions réelles des statistiques. Le vrai statistiques sur les ressources pack contient les fonctions suivantes:







RSQ_ADJ (R1, R2) = coefficient de détermination ajusté pour les ensembles de données contenus dans les rangs R1 et R2.

CORREL_ADJ (R1, R2) = coefficient de corrélation estimé ρest pour les ensembles de données contenus dans les rangs R1 et R2.

RSQ_ADJ (r, n) = coefficient de détermination ajusté correspondant à l'échantillon

CORREL_ADJ (r, n) = coefficient de corrélation estimé ρest correspondant à un coefficient de corrélation d'échantillon pour un échantillon de taille n.

Je vous serais reconnaissant toute aide, merci!

Cher Charles,
J'ai la taille de l'échantillon et 30 besoin de tester la relation avec l'âge individuel, le niveau d'éducation avec leur perception à plusieurs variables qui mesure selon l'échelle de Likert. (+ 1 fortement d'accord à -1 fortement en désaccord).
puis-je utiliser le test de corrélation pearson pour mesurer la corrélation entre les deux groupes de cet échantillon:
par exemple mon hypothèse sera:
officiers instruits ont meilleur choix de choisir le meilleur employé ou
expériences des agents ont des relations positives avec les meilleures pratiques des agents, etc.

J'ai données sur l'âge et le niveau d'éducation des données catégoriques et la perception que le classement des données.

espérons que vous pouvez comprendre mon problème

Plus vous avez des échelles Likert, les tests plus précis qui sont conçus pour les données continues. Avec 7 échelles (par exemple fortement d'accord, assez fortement d'accord, Plutôt d'accord, neutre, en désaccord légèrement, assez fortement en désaccord, fortement en désaccord), un test continu doit généralement fonctionner correctement. Il est également courant d'utiliser un tel test avec une échelle de 5 points, bien qu'il y ait plus de risques. Mieux encore serait d'attribuer une valeur comprise entre -1 et +1.

Vous pouvez certainement utiliser la corrélation de pearson pour mesurer les associations que vous avez énumérées. Vous pouvez également tester si ces coefficients de corrélation sont significativement différents de zéro. A fourni les données est à raisonnablement normalement distribué, cela équivaut à effectuer un test t. Voir la page Relation entre le test de corrélation et t.

am Hapi en poids d ur travailler faute, pls je travaille sur le statut de genre et socio-économique comme corrélats de la réussite scolaire des élèves. pls quel outil statistique dois-je utiliser pour analyser la data..tanx à l'avance

J'ai un grand ensemble de données. Je suis en train de déterminer la corrélation d'une variable à distance et une variable de probabilité. La distance est par incréments de 5 (il y a plus de 1000 points de données pour chaque incrément de la distance). La plupart des probabilités sont nuls (

dix%). Si je lance Excel Correl () sur les données complètes, il y a très peu de corrélation. Si je lance Correl () sur la probabilité moyenne pour chaque distance, il existe une forte corrélation. Suis-je utiliser Correl () d'une manière qui viole la construction dans les hypothèses?

Je suis désolé que je ne l'ai pas été en mesure d'expliquer ma question.
Pour chaque variable dépendante il y a 2 facteurs un facteur a 4 niveaux et l'autre facteur a 2 niveaux. Je peux séparer le facteur avec deux niveaux quand je teste la corrélation, mais je veux garder les 4 niveaux ensemble de l'autre facteur lorsque je teste la corrélation. Donc, je veux tester la corrélation pour le facteur 1 (a, b, c, d) avec le facteur 2 (a) puis trouver une corrélation entre le facteur 1 (a, b, c, d) avec le facteur 2 (b). Je teste la corrélation entre les deux variables dépendantes. Est-ce possible?
Si oui, puis-je utiliser la valeur moyenne des niveaux (a, b, c, d) lorsque je teste la corrélation?
J'espère que je pourrais bien expliqué ma question.
Merci beaucoup.

Je ne sais pas pourquoi vous voulez faire cela, mais en tout cas ici ma réponse à votre question en fonction de ma compréhension de ce que vous demandez.

Supposons que les données de 4 variables x1, x2, x3 et x4 sont contenues dans la gamme R1 (avec 4 colonnes, une pour chaque variable) et les données relatives à une autre variable y est contenu dans la gamme R2 (avec une colonne et le même nombre de lignes que R1). La corrélation de x1, x2, x3 et x4 avec y peut être calculée par la formule statistique réels multiplicateur (R1, R2). Ceci est essentiellement la valeur de R dans la régression linéaire multiple.

Le test de corrélation décrit dans les essais de corrélation entre deux variables x et y. Si vous définissez les valeurs x de l'échantillon comme la moyenne des valeurs correspondantes de x1, x2, x3 et x4, vous pouvez tester la corrélation de x avec y. Il n'est pas clair pour moi pourquoi ce serait utile si.

question est alors wh

Merci pour votre réponse rapide.

Si je ne possède pas les informations de niveau de l'entité pour tous les participants au sein des sous-groupes de la catégorie puis-je établir une corrélation entre les sous-groupes vraiment entre les catégories?

Bien que je possède les écarts-types et les moyens des catégories et des sous-groupes dans les catégories, je ne vois pas comment je peux calculer covariance. Si je ne peux pas calculer covariance est-il une autre façon de calculer la corrélation?

Vous avez besoin de bien plus que les moyennes et les écarts-types des échantillons pour calculer la covariance, et, comme vous avez observé, vous devez connaître la covariance pour calculer la corrélation.
Charles

Une question de corrélation pour vous.

Voici ma structure de données:
1. Plus de cinquante catégories avec les mêmes deux sous-groupes par catégorie. Sous-groupe 1 Passes et sous-groupe 2 échoue.
2. Toutes les catégories ne possèdent les mêmes sous-groupes de taille et toutes les catégories sont de la même taille.
3. Les données pour chaque catégorie contient à la fois des moyens sous-groupe et les écarts-types, ainsi que la catégorie moyenne globale et l'écart type.
4. La population même des participants a été évaluée dans toutes les catégories. Un échec dans une catégorie est aussi un échec dans toutes les autres catégories.

Question:
Avec les données formatées de cette manière est-il possible de mettre en corrélation les catégories?

Toute autre idée serait utile.

dit John Gonzales:

ce que l'on entend par la définition du coefficient de corrélation » Le coefficient de corrélation entre deux échantillons variables x et y est une mesure sans échelle d'association linéaire entre les deux variables, et est donnée par la formule, » mesure sans échelle spécifique? S'il vous plaît répondre le plus rapidement possible que ce soit pour un projet en raison de ce dimanche. Merci pour votre temps. -John G.

Le coefficient de corrélation est une mesure de l'association linéaire entre les deux variables, mais il est libre de ne pas échelle. Par exemple. si l'échantillon pour la variable x est et l'échantillon pour la variable y est, alors le coefficient de covariance est de 1,08. Si, au contraire je multiplie chacun des éléments de l'échantillon par 10, le coefficient de covariance sera 108, à savoir 10 x 10 = 100 fois plus élevé. Ainsi, le coefficient de covariance est l'échelle sans pas puisque les questions d'échelle (ici signifie échelle la taille des données d'entrée, non seulement leur relation à l'autre).

Le coefficient de corrélation est une tentative pour rendre le coefficient de covariance sans échelle. De cette façon que la relation entre les deux variables est capturée. En utilisant l'exemple ci-dessus, le coefficient de corrélation pour les échantillons originaux est 0,419425, le même que le coefficient de corrélation pour les échantillons qui sont 10 fois plus grand. Ceci est une mesure sans échelle. En fait, quelle que soit la taille des données d'origine du coefficient de corrélation a une valeur comprise entre -1 et +1. Plus le coefficient de corrélation est de +1 à la meilleure (plus élevée) l'association linéaire entre les deux variables (à savoir lorsque x est élevé, y a tendance à être trop élevé et lorsque x est faible, y a tendance à être faible). Plus le coefficient de corrélation est de 0 pis (inférieur) l'association linéaire entre les deux variables.

La même chose est vraie dans la plage négative, à savoir le plus proche du coefficient de corrélation est de -1 le mieux (supérieur) l'association linéaire entre les deux variables, à l'exception que cette fois, l'association est l'inverse de l'association positive (lorsque x est élevé, y a tendance à être faible, et lorsque x est faible, y a tendance à être élevé).

Laisser un commentaire Annuler la réponse







Articles Liés