6 étapes données scientifiques utilisent pour exécuter des projets d'exploration de données - BI Aperçu - Business Intelligence

Dans le sens le plus large de la définition, scientifique se réfère à quelqu'un qui applique une activité systématique d'acquérir des connaissances. Petit étonnant alors que les scientifiques de données ont le terme dans leur titre d'emploi; la méthodologie est au cœur de la façon dont ils exercent leurs fonctions. Mais alors que les données scientifiques n'utilisent pas exactement la méthode scientifique, ils utilisent une méthode qui emploie un grand nombre des mêmes principes.







Cette méthode est connue sous le nom de l'industrie Cross processus standard pour l'exploration de données, qui va maintenant être appelé pour CRISP par souci de simplicité.

Pour acquérir une compréhension pratique de la méthode de nombreuses données scientifiques utilisent pour glaner des idées à partir des données, nous allons examiner les six étapes du CRISP, concernant chaque étape de retour aux principes de la méthode scientifique.

1. Compréhension des entreprises

Fait intéressant, cette étape peut nécessiter une certaine créativité et ne doit pas nécessairement provenir d'un scientifique de données. Tout analyste d'affaires peut identifier un besoin d'affaires qui exige une meilleure visibilité, mais il est souvent à l'équipe de données pour créer des sous-besoins qui peuvent être directement liés aux données des projets miniers.

Bien entendu, cette phase de CRISP se rapporte à la phase d'hypothèse de la méthode scientifique. Le sujet est étudié et un cadre est créé en vertu de laquelle pour répondre à la question proposée.

Une fois que le problème de l'entreprise est connue, il est temps de mieux comprendre les points de données spécifiques qui se rapportent - et peut idéalement résoudre - la question. Cette étape nécessite l'examen des coûts d'acquisition et de la main-d'œuvre par rapport à la valeur des données nécessaires. Autrement dit, quels sont les coûts prévus de la collecte et l'analyse de ces données par rapport aux récompenses? Une fois les données recueillies, les avantages ne dépassent encore les coûts de les intégrer?

Pour les analystes, la compréhension des données permet d'identifier les techniques spécifiques (régression, classification, réduction des données) nécessaires pour tirer la perspicacité nécessaire sur les données. Même à ce stade précoce, il est possible pour une variété de projets apparaissent, que ce soit dans l'analyse ou la collecte, les besoins de données sont clarifiées et les lacunes dans les données sont identifiées.







La deuxième étape passe de la phase d'hypothèse à la phase de caractérisation de la méthode scientifique. Ici, les observations et les mesures sont faites pour organiser la préparation des matériaux - données dans ce qui sera context- utilisé plus tard dans les expériences.

3. Préparation des données

Restant dans le domaine scientifique, la troisième étape CRISP peut être l'un des plus pénibles. L'exploration de données ne sont pas à l'abri de la « garbage in, garbage out » truisme, données si diligents scientifiques doivent passer du temps, parfois des sommes considérables, normaliser les données pour contrôler les variables et nous nous efforçons pour des résultats optimaux.

Dans l'intelligence d'affaires ou d'un logiciel d'entreposage de données. cette étape suit souvent le processus d'extraction, transformation et chargement du logiciel. Une fois les données recueillies, il doit se transformer en une forme commune afin que les requêtes peuvent comparer les données entre les sources de données disparates.

La modélisation peut aussi être classé dans la phase expérimentale de la méthode scientifique, cette quatrième étape du CRISP produit les résultats qui seront évalués et soit acceptée ou rejetée.

Comme son nom l'indique, cette étape juge la performance du modèle d'exploration de données qui a été construit dans la quatrième étape. Comme dans d'autres domaines scientifiques, un régime strict doit être appliqué pour déterminer les normes de réussite. De plus, il est pratique courante d'appliquer un modèle d'exploration de données à l'aide des données de test en premier afin de travailler sur les conséquences négatives qui peuvent survenir lorsque l'on travaille sur un nouveau projet.

L'évaluation dans le modèle CRISP chevauche les phases d'expérimentation et de caractérisation de la méthode scientifique. Une fois que les expériences ont été réalisées, les résultats doivent être étudiés et par la suite rejetée ou acceptée.

Il est dans cette dernière étape que le modèle CRISP diverge de la méthode scientifique traditionnelle. Bien que les résultats d'une expérience doivent être examinés par des pairs dans la même spécialité et jugées acceptables par la communauté scientifique, la science des données dicte qu'une fois que les résultats d'un modèle d'exploration de données ont été acceptées, il est temps de mettre le système hors du laboratoire et mettre en production. modèles Uplift et désabonnement sont des exemples de modèles d'exploration de données appliquées à vivre des segments de données.

Ainsi, alors que l'exploration de données et la méthode scientifique ne se chevauchent pas complètement, d'acquérir une compréhension des étapes du procédé CRISP populaire et comment il se rapporte à une approche plus bien connue pour acquérir des connaissances est utile. Grâce à une meilleure compréhension comment l'équipe scientifique de données formule et complète des projets, les analystes d'entreprise peuvent utiliser leur créativité et de perspicacité pour mieux définir les problèmes commerciaux qui peuvent répondre par l'exploration de données.







Articles Liés