imagette de la page d'accueil de l'anneau accueil > Contenu > Yang > Anneau > Lexicométrie et Text Mining

Expérimenter avec RapidMiner (plugin "text") et SpamBayes

Numéro d'enregistrement : 00041985
Numéro d'enregistrement : 00041985
Ce site est protégé par droit d'auteur. En l'occurrence, ce certificat de droit d'auteur n'est pas une licence d'exploitation : Ce qui est protégé est l'archivage officiel du contenu des pages à une date précise. Ainsi l'antériorité d'une création pourra être prouvée, c'est-à-dire que toute idée nouvelle circulant sur Internet et qui serait ma création pourrait être reconnue comme telle grâce à ce dépôt légal...

"Au commencement était le verbe. Puis arriva le traitement de texte, et leur foutu processeur de pensée. La mort de la littérature s'ensuivit. Ainsi va la vie."
[ Hypérion (1989), 3 ].- Dan Simmons

Sommaire



Introduction

Cette page a pour objet de présenter les différents traitements automatiques documentaires. Lorsqu'on parle d'information non-structurée, il s'agit purement et simplement de documents textuels, comme cette présente page. Pour des raisons de concision, je me limiterai à l'information textuelle pure, mais sachez qu'il existe des travaux pour travailler sur le son, la vidéo et l'image. Les résultats sont plus que prometteurs...
Par ailleurs, je vous conseille vivement de vous équiper de l'un des logiciels gratuits pour pouvoir expérimenter les éléments de lexicométrie que je vais exposer, en particulier le logiciel Yale/RapidMiner et son extension "WVTool" pour la lexicométrie.

approche sémantique

Le principe de la matrice lexicale

La chaîne de preprocessing

Interprétation des traitements sur la matrice lexicale

Pb : fréquences, donc AFC ?

Les composantes thématiques

Les catégories de documents

Les groupes de mots-clés associés

approche syntaxique

Le principe de l'étiquetage grammatical

La chaîne de traitement syntaxique : du mot-clé au patron linguistique

Les règles d'association pour extraire les concepts

Importance du concept-mapping.

cas des pages Web

moteurs "plein texte"

moteurs cartographiques

moteurs à langage naturel : le Web sémantique

Les techniques de SEO

Publication, business et influence : Merci monsieur Gutenberg !!

Trois acteurs à séduire

L'internaute visiteur, le documentaliste en annuaire, l'algorithme de pondération du moteur de recherche.
Impact sur la conception du site.

La création et la gestion des trafics

moteurs : qui approvisionne qui ?
Trafics de circonstance et trafics stables : problématique marketing.
Le référencement : écriture des balises META.
Les outils.

Que font les concurrents ?

Les outils Alexa.
La surveillance des mots-clés.


Retour à l'accueil
Remonter d'un niveau