Data Mining Comment démarrer vos projets d'exploration de données de la bonne façon

Précédent ◈ Suivant

Le plus important est de se familiariser avec vos données. Vraiment comprendre les données que vous travaillez avec avant de le presser à travers une ou l'autre méthode. Nous ne parlons pas des étapes de base avant tout projet d'exploration de données telles que les données propres, corriger les valeurs manquantes et autres. Nous partons du principe que ces choses sont déjà pris en charge.

Voici trois analyses pré-vous pouvez exécuter pour vous assurer que vous tirer le meilleur parti des données. Nous couvrirons le premier un peu de détails et d'enregistrer les autres pour plus tard.

1. Exécuter une analyse bidimensionnelle: en générant une matrice de diagrammes de dispersion. outil Opensource RapidMiner a quelques traits fins pour ce faire. Commencez par lire dans votre feuille de calcul (si c'est là vos données est) et la connexion au port de sortie comme indiqué ci-dessous.

Data Mining Comment démarrer vos projets d'exploration de données de la bonne façon

Ensuite, une fois que vous exécutez la « analyse » en cliquant sur le bouton bleu « jouer » sur la barre de menu, RapidMiner vous montre trois résultats Dureé: Meta de données, afficher les données et afficher du terrain.

L'avantage de l'exécution d'une analyse bivariée est que vous pouvez le signaler par inspection visuelle si toutes les variables sont une influence significative et d'identifier qualitativement les clusters. Cela vous donnera une idée d'exécuter une analyse cluster si nécessaire.

Ainsi, l'analyse peut bivariée effectuer les opérations suivantes:

Vous aider à identifier les modèles visuels
Indiquez s'il y a des principaux facteurs évidents

Il y a deux autres analyses qui peuvent être très utiles, mais nous allons les couvrir en détail dans un prochain article.

2. Lancez une analyse univariée: pour créer des histogrammes des variables clés une fois que vous exécutez votre écran visuel à deux variables. Ceci est utile avant la mise en place d'un modèle de régression par exemple lorsque les paramètres qui ne sont pas normalement distribués pourraient influer sur votre interprétation des résultats.

3. Lancez une analyse en composantes principales: pour réduire la dimension de problème si vous le pouvez. Nous avons une série d'article détaillé sur la façon d'exécuter une analyse en composantes principales ailleurs sur ce blog. Une fois que vous avez exécuté, votre travail est considérablement réduit parce que vous pouvez supprimer les paramètres non influents dans les données à

Améliorer la vitesse de calcul de vos algorithmes
Fit modèles plus facile
Comprendre meilleurs résultats

Alors ne sautez dans un algorithme sophistiqué juste parce que vous avez les données. Essayez de faire sortir chaque bit de compréhension à l'aide des outils statistiques de base avant d'atteindre les gros canons.

Si vous aimez comment faire des articles comme ceux-ci et veulent avoir un accès rapide et facile à tous ces articles sur ce blog et d'autres analyses des blogs connexes, inscrivez-vous gratuitement pour le portail visTASC nos analytique en ligne!

Articles Liés

Précédent ◈ Suivant