En divisant une variable continue dans les catégories

FAUTES COMMON MISTEAKS EN STATISTIQUES UTILISATION: Spotting et les éviter

Ceci est également connu sous d'autres noms tels que « discrétisation », « données de hachage » ou « binning ». 1 Des méthodes spécifiques parfois utilisées comprennent « split médiane » ou « queues troisième extrêmes ».







Quoi qu'il en soit appelé, il est généralement 2 une mauvaise idée. Au lieu de cela, utiliser une technique (comme la régression) qui peut fonctionner avec la raison fondamentale variable.Appareil continue est intuitive: Vous Jetant loin d'informations. Cela peut se produire de diverses manières avec des conséquences diverses. Voilà quelque:


1. Lorsque vous effectuez des tests d'hypothèses, la perte d'informations lors de la division des variables continues dans des catégories se traduit généralement par la perte de puissance. 3







2. La perte d'informations impliquées dans le choix des bacs pour faire un histogramme peut donner lieu à un histogramme trompeur.

Exemple. Les trois graphiques suivants sont tous histogrammes des mêmes données (les temps entre les éruptions successives du geyser Old Faithful à Yellowstone National Park). Le premier a cinq bacs, les bacs sept secondes, et les troisièmes 14 bacs.

En divisant une variable continue dans les catégories
En divisant une variable continue dans les catégories
En divisant une variable continue dans les catégories

Notez que cet histogramme avec seulement cinq bacs ne piquez pas la bimodalité des données; l'histogramme avec sept bacs allusion à ce; et l'histogramme avec 14 bacs montre plus clairement. 4







Articles Liés