Ressource pédagogique : Fouille de données
Présentation de: Fouille de données
Informations pratiques sur cette ressource
Document soumis à la licence GFDL (http://www.gnu.org/copyleft/fdl.html)
Description de la ressource pédagogique
Description (résumé)
Ce cours adopte une approche pragmatique et pratique, tout en essayant de donner le matériel nécessaire pour comprendre ce que l'on fait : le but n'est pas d'appliquer aveuglément des algorithmes, mais de connaître des algorithmes et de savoir quand et comment les appliquer, d'être capable de les utiliser et de juger les résultats qu'ils fournissent. En fouille de données, on ne peut pas se contenter d'appliquer aveuglément une méthode et de se contenter tout aussi aveuglément du résultat obtenu, comme s'il s'agissait de LA réponse au problème. Les algorithmes d'extraction d'information constituent une boîte à outils ; ayant cette boîte à disposition, il nous faut apprendre à les utiliser, comme l'artisan apprend à manier ces outils. Dit autrement, la fouille de données est un art : outre les connaissances plus ou moins techniques à acquérir, il faut ensuite accumuler beaucoup de pratique. Au niveau pratique, on s'appuie exclusivement sur des logiciels libres : ils sont aisément accessibles sur la Toile. Certains sont remarquables. Malheureusement, il n'y a pas à l'heure actuelle de véritable atelier de fouille de données qui soit libre. Ceux-ci intègrent de très nombreux outils d'analyse et de fouille de données, de visualisation de données et des résultats de fouille, de présentation des résultats (création de tableaux de bord) et de liaison avec des bases et entrepôts de données : ces logiciels sont assez onéreux. On ne s'attaque pas au problème de la gestion de gros volumes de données ; ce que l'on raconte ici s'applique à des volumes de données raisonnables (ordre de grandeur : méga-octets stockés dans de simples fichiers Unix : suite de caractères non structurée ou des bases de données traditionnelles (type sql). Au-delà, des architectures spécialisées (entrepôts de données) sont nécessaires pour cette gestion. Ici et là, on indique comment passer à l'échelle en ce qui concerne les algorithmes de fouille.
- Granularité : cours
- Structure : atomique
"Domaine(s)" et indice(s) Dewey
- Systèmes de stockage et de recherche d'information (025.04)
Thème(s)
Informations techniques sur cette ressource pédagogique
- Configuration conseillée : Nécessite Adobe Acrobat Reader ou tout autre logiciel permettant la lecture de documents au format PDF Les TP sont réalisés à l'aide de l'environnement logiciel R (http://www.r-project.org/)
Intervenants, édition et diffusion
Intervenants
Éditeur(s)
-
Université de Lille III
Voir toutes les ressources pédagogiques
Diffusion
AUTEUR(S)
-
Philippe Preux
Université Lille 3
ÉDITION
Université de Lille III
EN SAVOIR PLUS
-
Identifiant de la fiche
http://ori.unit-c.fr/uid/unit-ori-wf-1-1679 -
Identifiant
oai:www.unit.eu:unit-ori-wf-1-1679 -
Schéma de la métadonnée
- LOMv1.0
- LOMFRv1.0
- SupLOMFRv1.0
- Voir la fiche XML
-
Entrepôt d'origine
-
Date de publication
09-10-2008