Accueil > Ressources > Datamining avec R > DATA MINING

DATA MINING

Description et comparaisons des logiciels libres et propriétaires

lundi 12 juillet 2010, par davidlarrieu

Le data mining (exploration de données en français) est un assortiment de procédés permettant d’extirper des information à partir d’une abondante quantité de données. Son utilisation est polyvalente et pluridiscplinaire, elle est employée dans l’analyse des comportements de la clientèle, dans le marketing, dans la détection de fraudes etc.
Dérivé des statistiques, le data mining s’en distingue en ne présupposant pas d’hypothèse avant de faire une analyse. La démarche est pragmatique et permet de faire surgir des raisonnements que l’utilisateur n’aurait jamais pressenti.
Les logiciels de data mining ont pour objectifs l’aide à la décision. Certains sont libres, comme R et WEKA par exemple, d’autres sont sous licence comme SPSS, S, SAS etc.

1) R
R est un logiciel de calcul statistique et de traitement de données. Ce programme a été créé via le projet GNU et est fondé sur le langage S qui a été développé par John Chambers des laboratoires Bell. R est un logiciel libre et ses extensions (ou paquets) en font un logiciel extrêmement complet et varié.
R possède un traitement de données efficace avec capacité de stockage, des possibilités de calculs dans des tableaux ou des matrices, de nombreux et cohérents outils pour analyse de données, des fonctionnalités graphiques avec affichage sur écran ou impression papier, une langue de programmation bien développée, simple et efficace qui inclut fonctions de condition, de boucles, récursives définies par l’utilisateur.
R est défini par ses créateurs comme un système entièrement planifié et cohérent, plutôt qu’une accumulation progressive d’outils très spécifiques et inflexibles.
L’avantage d’être un logiciel libre et ouvert permet à l’utilisateur d’ajouter la fonctionnalité supplémentaire qu’il souhaite en définissant de nouvelles fonctions, de suivre les choix algorithmiques faits et de pouvoir manipuler les objets de R directement.

2) WEKA
WEKA est une suite de logiciel d’apprentissage (machine learning) automatique écrite en JAVA et développée à l’université de Waikato en Nouvelle Zélande. Comme R, WEKA est un logiciel libre sous GNU, par contre, JAVA n’est pas un langage libre.
WEKA contient des algorithmes d’analyse de données et de modélisation de prévisions avec interface graphique. Grâce à l’API Java DataBase Connectivity (JDBC) le logiciel peut faire le lien entre l’interface JAVA et les bases de données.

3) SPSS Clementine / IBM SPSS Modeller

SPSS Clementine est un logiciel de data mining créé par la société SPSS inc (Statistical Package for the Social Sciences), basée à Chicago. Après le rachat de SPSS inc par IBM en 2009, le logiciel a pris le nom de IBM SPSS Modeller.
SPSS Clementine comprend un environnement graphique codé en JAVA.
Les solutions d’IBM SPSS s’attaque aux objectifs des activités interconnectées grâce à une organisation complète en se concentrant sur la convergence des analyses, l’architecture des technologies de l’information et les procédures d’entreprise

4) SAS (Enterprise miner)

SAS 9.2 est un programme créé par SAS Institute (Statistical Analysis System). Cette société, créé en 1976 et basée en Caroline du Nord, se caractérise par une location de ses logiciels et non leur cession. SAS est le premier éditeur mondial d’informatique décisionnelle.
SAS est composé de nombreux composants, chaque élément ayant sa propre licence et s’installant selon les besoins. Enterprise Miner est l’un de ces composants dédié au data mining. Enterprise miner est une interface graphique et conviviale comprenant des méthodes d’exploration et de prédiction. Le logiciel comprend une large gamme d’outils, une interface graphique facile à utiliser, une précision des prédictions et un partage facile des informations dans le but d’améliorer la qualité de décisions.

5) Oracle Data Mining

Oracle Data Mining est une option du système de gestion de base de données relationnel (SGBDR) Oracle. Au milieu des années 1990, Thinking machine corporation développe le programme Darwin data mining. En 1994, Sun Microsystems rachète Thinking machine corporation puis est, elle-même, acquise par Oracle Corporation qui décide de reconcevoir et réécrire le programme de data mining.
Oracle Data Mining comprend de nombreux algorithme de data mining qui sont intégrés directement dans le noyau de la base de données Oracle. Cela permet d’éviter tout transfert des données vers le serveur du data mining. Oracle Data Mining a une interface graphique (Oracle Data Miner) permettant à l’utilisateur de créer, appliquer, tester et manipuler les objets de data mining.

6) XLMiner

XLMiner est un patch à ajouter à Excel pour exécuter du Data mining. Ce programme permet de faire du data ming avec les différents outils d’Excel, comme les tableurs ou les graphes. La procédure de travail incite à importer un échantillon de la base de donnée sous Excel puis d’analyser celle-ci grâce à plusieurs méthodes afin de choisir la plus appropriée à exécuter sur la base complète.

7) Synthèse

Le choix d’un logiciel va dépendre de l’utilisation que veut en faire son propriétaire. Cependant, des critères sont importants à examiner :
-  La puissance des algorithmes de recherche (à vérifier dans la documentation de l’éditeur),
-  La faculté du logiciel à travailler sur de nombreuses données,
-  La possibilité pour l’utilisateur de modifier certaines fonctionnalités,
-  La facilité d’utilisation du logiciel
-  Le prix

Le logiciel choisit doit au moins posséder les fonctionnalités suivantes :
-  Classement,
-  Prédiction,
-  Classification,
-  Analyse des séries temporelles,
-  Préparation des données,
-  Fonctions statistiques,
-  Fonctions d’échantillonnage,
-  Visualisation des résultats,
-  Manipulation des tableaux de résultats,
-  Manipulation des arbres de décision,
-  Gestion des métadonnées

Pour choisir son logiciel, on peut examiner quels sont les plus employés. D’après un sondage du site kdnuggets.com, on remarque qu’en 2010 les logiciels open source sont les plus utilisés (ex : 29,8% des usagers pour R et 14,3% pour Weka). En comparaison avec les années précédentes, les utilisateurs de R ont progressé de 113%. SAS et IBM SPSS Modeler font partis des logiciels commerciaux les plus utilisés, respectivement avec 12% et 7,3%. Par contre, IBM SPSS Modeler a diminué de 78% d’utilisateur, la situation est comparable pour SAS Enterprise Miner qui est passé de 18,4% à 5,5%. Par contre, Excel a fait une progression de 30%, passant de 18,7 à 24,3%. Oracle Data Mining est pour sa part utilisé par 2,1% des sondés.

En conclusion, afin de sélectionner le logiciel le mieux adapté à son emploi, l’entreprise ou le particulier doit vérifier que les algorithmes programmés sont assez puissantes, que le logiciel a la possibilité de traiter le nombre de données souhaitées, qu’il lui ai possible de définir de nouvelles fonctions si cela lui est nécessaire et que l’interface graphique est conviviale. Evidemment, il devra choisir entre un logiciel gratuit ou payant. A priori, la qualité du logiciel ne dépend pas du fait qu’il soit Open source ou non, on remarque toutefois que les logiciels libres ont le vent en poupe et sont les plus utilisés.

Site internet :
http://data.mining.free.fr/
http://www.kdnuggets.com
http://fr.wikipedia.org