Mieux connaître ses clients grâce au Text Mining ou fouille de données textuellespar Michel Bruley, Teradata Europe de l’Ouest
Les entreprises sont depuis longtemps à l’écoute de leurs clients, historiquement via leur force de vente, des études de marché ou en analysant les données représentatives de leur activité et plus particulièrement le « panier » de leurs clients. De fait ces dernières années les entreprises ont massivement investi dans des technologies d’analyse privilégiant le traitement des données structurées (commande, facture, stock, ...), au détriment des données non structurées (courriels entrants, propos tenus sur des forums, documents divers, ...), qui représentent cependant 90% de l’information accessible par les entreprises.
Michel Bruley, Directeur Marketing & PR Teradata Europe de l’Ouest
Le nouveau défi pour les entreprises en matière d’analyse de données est donc de significativement progresser dans l’exploitation des données non structurées. En matière de connaissance client par exemple, il s’agit d’écouter les conversations web, participer, solliciter, influencer, orienter ces conversations ou automatiser les dialogues via les courriels. La maîtrise des discussions de l’entreprise avec sa communauté de clients est une clef du marketing actuel, qui est en pleine mutation du fait des nouvelles technologies et de l’évolution des comportements clients qu’elles facilitent, voire génèrent.
La quantité de documents électroniques exploitables est en croissance permanente et comme « l’extraction manuelle » d’informations est extrêmement ardue, voire pratiquement impossible à grande échelle, le recours à des outils informatiques spécifiques pour le traitement de données textuelles non structurées s’est imposé. Cela a donné naissance aux outils de Text Mining ou fouille de données textuelles, qui permettent d’automatiser le traitement de gros volumes de contenus texte pour répertorier de manière statistique les différents sujets évoqués et en extraire les principales informations. La fouille textuelle applique sur les textes des traitements linguistiques, notamment morphologiques, syntaxiques, sémantiques, ainsi que diverses techniques d’analyse de données, de statistique, de classification, etc. Concrètement il s’agit de synthétiser (classer, structurer, résumer, …) les textes en analysant les relations, les structures et les règles d’association entre unités textuelles (mots, groupes, phrases, documents). Au final cela permet d’automatiser la production et la gestion de documents (notamment des résumés) ou d’informations (extraction, recherche, diffusion). La fouille textuelle a de nombreuses applications, elle permet en particulier de : Explorer le contenu de documents (par exemple les questions ouvertes dans une enquête, les commentaires et plaintes des clients, l’analyse des réclamations de garantie), Affecter des documents à des thèmes prédéfinis (redirection, filtrage des e-mails, organisation des documents par catégories, classement des contacts au centre d’appel), Composer des résumés de textes (abstraction et condensation), Interroger des textes par concepts, mots-clés, sujets, phrases visant à obtenir des résultats triés par ordre de pertinence, à la Google, Augmenter la performance de modèles prédictifs en combinant les données textuelles et les données structurées. Au cœur d’une approche de fouille de textes, se trouve la construction d’un lexique, aussi appelé selon les cas catalogue, dictionnaire, thésaurus. Il s’agit de définir le vocabulaire d’un domaine et au-delà d’une liste de mots de fixer des informations linguistiques, sémantiques complémentaires (type synonyme, polysémie, ...). A partir du lexique il est possible de centrer la recherche de fréquence sur les termes clés du domaine et de mettre en œuvre des règles pour pondérer les termes, sélectionner les meilleurs termes, détecter des relations, des associations porteuses de sens par exemple. Ainsi un terme qui apparait plusieurs fois dans un document est plus important qu’un terme qui apparaît une seule fois, et un terme qui apparaît dans peu de documents est un meilleur discriminant qu’un terme qui apparaît dans tous les documents. Cependant il faut avoir conscience que dans les entreprises, y compris les plus grandes, la fouille textuelle n’en est qu’à ses débuts, que les technologies associées sont loin d’être toutes matures, que toutes ces approches restent compliquées, mais que certaines réalisations de l’industrie pharmaceutique ou du domaine de la sécurité, sont très prometteuses. C’est ce qu’ont bien compris certains éditeurs qui investissent pour se positionner sur ce marché. Dans ce domaine Teradata travaille avec divers partenaires comme Attensity, SAS ou Kxen et certains de ses clients comme Royal Bank of Canada, Travelocity, ou e-Bay par exemple développent des approches très intéressantes. Pour aller plus loin sur ce sujet vous pouvez utilement écouter le podcast du Dr. David Bean, Chief Technology Officer and Co-Founder, d’Attensity : http://www.teradata.com/t/podcasts/text-analytics-DW/ Mardi 6 Avril 2010
Lu 1638 fois
Nouveau commentaire :
|
|
||||||||
Decideo.fr | RelationClient.net | Progilibre.com | DAF.info | ECONOtique.com | Zetta.fr | Nieuwbourg.com | Nieuwblog.com | Forum Decideo | BeyeSEARCH | BeyeBLOGS | BeyeRESEARCH | TDAN.com | BeyeNETWORK |
|||||||||




