Lissage des données dans Excel

Statisticiens ont généralement de regarder les grandes masses de données et trouver difficiles à voir des modèles. Parfois, une tendance générale suggère un outil analytique particulier. Et parfois, cet outil, bien que statistiquement puissant, ne permet pas le statisticien en arriver à une explication.







Lissage des données dans Excel

La tendance générale est évident que les années passent, plus home runs sont touchés. Mise en place d'une ligne de régression confirme cette idée. L'équation

Home Runs = 24,325 * Année - 465395

est un ajustement formidable pour les données. L'équation donne une valeur R-carré de 0,91, ce qui indique que le modèle linéaire décrit bien la relation entre les pistes et les années à domicile.

montage juste une ligne de régression sur les choses importantes gloses dans le baseball - des choses grandes et petites qui composent une saison de baseball, une époque, une histoire. Et le base-ball a beaucoup de ces choses. L'objectif est de les amener à se révéler.

L'autre extrême de la ligne de régression est de relier les points. Ce serait tout simplement donner un tas de zigzags qui ne sera probablement pas illumineront un siècle d'histoire.

analyse exploratoire des données (AED) aide à montrer la voie. Une technique EDA est appelée lissage trois médiane. Pour chaque point de données dans une série, remplacer ce point de données avec la médiane de trois chiffres: le point de données lui-même, le point de données qui le précède, et le point de données qui suit.

Pourquoi la médiane? Contrairement à la moyenne, la médiane est pas sensible aux valeurs extrêmes qui se produisent de temps en temps - comme un zig zag ou un. L'effet est de filtrer le bruit et laisser des hauts et des bas significatifs.







Pourquoi trois chiffres? Comme la plupart tout EDA, ce n'est pas à toute épreuve. Pour certains ensembles de données, vous voudrez peut-être la médiane pour couvrir plus de chiffres. Il est aux intuitions, des expériences et des idées de l'analyste.

Une autre technique, Hanning, est une moyenne pondérée en cours d'exécution. Vous remplacez un point de données avec la somme d'un quart le point de données précédent, plus la moitié du point de données plus un quart de la prochaine point de données. Une autre technique est la moyenne de saut.

Dans EDA, vous ne vous contentez pas d'utiliser une technique sur un ensemble de données. Souvent, vous commencez avec une surface lisse médiane, répéter plusieurs fois, puis essayer un ou deux autres.

Pour les données dans le nuage de points, appliquer les trois médiane lisse, répéter (qui est, l'appliquer aux nouvelles données lissées), han les données lissées, et puis appliquer le saut signifie. Encore une fois, aucune technique (ou ordre de techniques) est bien ou mal. Vous appliquez ce que vous pensez illumine caractéristiques significatives des données.

A la suite fait partie d'une feuille de calcul pour tout cela. La colonne A montre l'année, et la colonne B indique le nombre de coups de circuit frappé cette année dans la Ligue américaine. Les autres colonnes montrent lissages successifs des données.

La colonne C applique la lisse trois médiane à la colonne B, et la colonne D applique la lisse trois médiane à la colonne C. Un coup d'œil sur les chiffres montre que la répétition n'a pas beaucoup de différence. Colonne E applique Hanning à la colonne D et la colonne F applique le saut signifie à la colonne E.

Lissage des données dans Excel

Vous pouvez facilement regarder l'effet de chaque technique de lissage successives sur la ligne lissée. La clé est de faire un clic droit sur la zone de tracé et choisissez Sélectionner les données dans le menu contextuel. Cliquez sur le nom de la série de données qui représente la ligne lissée, modifier la plage de cellules de la série pour refléter la colonne qui maintient la technique de lissage particulier, puis cliquez sur OK pour fermer les boîtes de dialogue d'édition.

Et maintenant, l'histoire commence à se révéler. Au lieu d'une ligne de régression qui vous indique juste que la maison fonctionne augmentent à mesure que les années passent, les hauts et les bas stimulent la réflexion pour expliquer pourquoi ils sont là. Voici une version très abrégée de l'histoire du baseball compatible avec les méandres de la ligne lissée.

Le segment bas plat de 1901 par 1920 signifie la « période morte-ball, » un moment où la composition d'une balle de baseball inhibé a manié la batte boules d'aller assez loin pour devenir courses à la maison.

Explorer et de visualiser les données stimule la pensée de ce qui produit les modèles d'exploration les découvre. La spéculation conduit à des hypothèses testables, qui conduisent à l'analyse.







Articles Liés