imagette de la page d'accueil de l'anneau accueil > Contenu > Yang > Anneau > Analyse de Données

Expérimenter avec RapidMiner

Numéro d'enregistrement : 00041985
Numéro d'enregistrement : 00041985
Ce site est protégé par droit d'auteur. En l'occurrence, ce certificat de droit d'auteur n'est pas une licence d'exploitation : Ce qui est protégé est l'archivage officiel du contenu des pages à une date précise. Ainsi l'antériorité d'une création pourra être prouvée, c'est-à-dire que toute idée nouvelle circulant sur Internet et qui serait ma création pourrait être reconnue comme telle grâce à ce dépôt légal...

"Les statistiques, c'est comme le bikini: ça donne des idées mais ça cache l'essentiel!"
Michel Colucci, dit Coluche

Sommaire


Statistique et analyse de données

Tous les travaux, exemples et théories de cette page peuvent être vérifiés en utilisant le logiciel gratuit RapidMiner/Yale.
Toutes les techniques que j'expose dans cette page, ainsi que dans celle du "data mining", sont très matheuses. Ce sont pourtant ces méthodes qui font la fortune des grandes entreprises, et ce sont également les seules méthodes qui permettent d'éclaircir la complexité d'un monde globalisant. Ce n'est pas un hasard si j'ai ressenti le besoin de les exposer...
L'analyse de données, vocable ambigü, est pourtant une théorie novatrice mise au point dans les années 1960 en France par le professeur J.P. Benzecri à Lyon. Elle s'appuie sur la statistique traditionnelle, et a pour ambition de la prolonger afin d'explorer des données et de leur découvrir des structures cachées, inconnues, utiles et explicables.
Le professeur Benzecri insistait sur la nécessité de ne pas avoir d'a priori sur les structures et les données à explorer. Cette disposition intellectuelle conditionne la compréhension et l'utilité des méthodes proposées, et peut provoquer de vifs débats sur le caractère scientifique d'une telle théorie.
En fait, tout débat sur l'analyse de données et sur son jumeau américain du MIT, le Data Mining doit être compris comme un débat strictement stérile sur le plan technique, mais d'un certain intérêt sociologique. En outre, l'analyse de données n'utilise pas exactement les mêmes modèles ni les mêmes soubassements théoriques que la statistique : en fait, elle inclue des théories extrinsèques qui peuvent semer la confusion quant à sa nature; le professeur Benzecri avait donc développé un appareil de justification théorique particulièrement impressionnant, qui peut conduire à croire que l'analyse de données devrait s'appréhender de manière rigoureuse et intellectuelle.

Une anecdote amusante sur le professeur Benzecri : Un jour qu'il devait livrer une conférence sur l'analyse de données dans un amphithéâtre, le professeur arriva largement en avance sur les lieux. Le gardien responsable des infrastructures faisait sa ronde, et constata avec surprise qu'un homme mal vêtu, avec une barbe de patriarche biblique, "squattait" les lieux. Il chassa le supposé clochard qui n'était autre que le professeur Benzecri. Il paraît que le gardien a eu des soucis par la suite...

L'analyse de données est donc un hybride théorique, qui ne se justifie que par sa vocation :
Aider tout analyste, quel qu'il soit, à explorer ses propres données et à les faire parler.
Du point de vue du statisticien, l'exploration des données se résume à : Pour la stat descriptive et inférentielle, voir la partie "mathématiques"
Je présente ci-dessous un petit schéma de repérage de l'analyse de données par rapport à d'autres disciplines dont la statistique. Vous trouverez également une carte complète de concepts présentant tous les tenants et aboutissants de ce genre de discipline : l'analyse de données et le data mining
contexte de l'analyse de données

Les modèles

L'analyse de données utilise trois modèles pour présenter et pour expliquer les données. Il s'agit de raisonner par analogie : Si l'on considère les données comme des objets réels, munis d'un poids, alors on pourra utiliser les théorèmes de la mécanique traditionnelle, reliant force, accélération, position, énergie et masse, pour peu que l'on ait été capable d'identifier ce qui joue le rôle de masse, d'accélération, etc.... L'utilisation de tels modèles est donc soumise à interprétation, qui a pour but de distribuer les rôles aux écritures utilisées. Si l'identification des rôles fonctionne bien, cela laisse présager que le modèle est applicable, et alors l'utilisation des théorèmes du domaine analogue permet de déduire de nouvelles formules d'exploitation des données.
superposition de trois modèles en analyse de données

modèle algébrique

notions sur les matrices

Le principe du modèle algébrique est d'utiliser l'algèbre matricielle et de l'appliquer aux données statistiques. Je rappelle, sans déflorer le sujet, que l'algèbre matricielle consiste à traiter des matrices, des tableaux de nombres qui représentent la dépendance des données entre elles. En l'occurrence, cette dépendance est de type linéaire, c'est-à-dire qu'une valeur "B" sera constituée des contributions des valeurs A, C et D selon les termes :
B=axA+dxD+cxC
La première rangée de la matrice correspondante est alors constituée des nombres "a", "c" et "d". On a alors des matrices d'entrée, des matrices de passage, des matrices de résultat, des opérateurs pour modifier globalement les matrices. Un système d'équations à plusieurs inconnues se ramène à une équation matricielle de type [Y]=[A][X], et il suffit d'inverser la matrice [A], pour écrire [X]=[inv:A][Y] pour lire directement la solution.
On imagine la puissance d'un tel concept dans le traitement de données croisées, pour ainsi dire dans tous les domaines de la vie courante !![1]

Le modèle d'écriture de la table d'analyse

L'application du modèle matriciel à l'analyse de données suppose certaines conventions au regard du format des données :
La table d'analyse :
Les données sont ramenées à des individus d'une population, chaque individu est caractérisé par les mêmes variables, mais qui prennent des valeurs différentes pour chaque individu. Ce sont en quelque sorte les "coordonnées" des individus. On obtient alors un tableau avec les individus en rangées, et les variables en colonnes.
Les quatre parties : valeurs (individus, attributs), intitulés (individus, attributs).
L'idée est de séparer les libellés de la table de l'analyse, des valeurs que ces libellés peuvent prendre. Si une colonne porte un nom, alors on sépare la série de valeurs de cette colonne et le nom de la colonne, considérant alors qu'il y a un objet "colonne de valeurs" et un objet "intitulé de colonne". On fait de même avec les lignes, et on obtient quatre familles d'objets :
  1. les intitulés de lignes,
  2. les intitulés de colonnes,
  3. les lignes de valeurs
  4. et les colonnes de valeurs.
Ces deux dernières familles sont extraites de la table complète de valeurs.
Le statut des intitulés est de dire : "Si j'applique un intitulé sur la table d'analyse, je ne dois obtenir que la ligne ou la colonne de valeurs correspondant originalement à l'intitulé". Chaque intitulé peut donc être interprété comme un masque, un filtre sur la table complète ne laissant "passer" que les valeurs relatives à l'intitulé. En outre :
  • Si j'applique sur ma table un masque, puis j'applique un autre masque sur le résultat (intitulé différent du premier), je dois obtenir...rien du tout !
  • Si j'applique sur ma table une juxtaposition de deux masques, je dois obtenir une juxtaposition de deux colonnes/lignes de valeurs
  • Si j'applique deux fois de suite le même masque sur la table puis sur le filtrat, j'obtiens le même résultat, à savoir le premier filtrat
  • En fin de compte, la nature des masques ne s'identifie qu'à travers l'effet qu'ils produisent sur les valeurs
Ce comportement des masques est caractéristique d'un espace vectoriel dual des espaces vectoriels des valeurs.
le principe du masque de données la creation des quatre espaces vectoriels
Le masque d'une colonne est associé
à l'intitulé de la colonne,
formant un objet-vecteur
La table d'analyse complète donne naissance à quatre
espaces vectoriels liés entre eux,
ce qui traduit l'unité initiale de la table
L'interprétation de ces quatre parties et leur interdépendance :
L'idée initiale du professeur Benzécri était de pouvoir modifier de manière judicieuse la répartition des intitulés de colonnes. Revenant du Royaume-Uni, il avait vu les anglais pratiquer le "multidimensional scaling" et était convaincu de l'utilité de pouvoir modifier les intitulés plutôt que de les ordonnancer comme le firent les anglais.
Modifier les intitulés pouvait par exemple servir à mettre en lumière des variables moins nombreuses, mais représentatives de l'information contenue dans chacune des variables initiales. Ainsi, les dépenses mensuelles d'un ménage, le revenu mensuel, le taux d'endettement, le nombre d'enfants peuvent-il probablement expliquer conjointement le niveau d'épargne d'un ménage...On passe alors par exemple d'une centaine de variables en colonnes à quelques dizaines, ce qui accroit considérablement la lisibilité et permet d'expliquer des phénomènes et des thèmes.
Concrètement, sur la table d'analyse, cela suppose de savoir transformer :
  • Les intitulés de colonnes
  • Les valeurs de colonne
Cela suppose une double opération, avec le problème de savoir comment "toucher" aux intitulés. J'ai expliqué plus haut que les quatre familles de vecteurs (intitulés lignes/colonnes, valeurs lignes/colonnes) sont liés entre eux, visuellement car venant de la même table, et mathématiquement par l'application de théorèmes sur les liens entre espaces vectoriels et espaces duaux. L'idée est donc de trouver le moyen de manipuler les intitulés indirectement, à partir des valeurs de lignes et colonnes, étant entendu que le lien théorique entre les quatre familles le permet de facto. Pour cela, il faut d'abord traduire les liens théoriques en formules de passage : Entre espaces vectoriels, cela s'appelle des matrices.
le lien entre les quatre espaces vectoriels
Ainsi, si l'on arrive à traduire la modification des intitulés par une modification des valeurs des lignes et des colonnes, l'application des formules de passage permettra d'obtenir les nouveaux intitulés. Une nouvelle application de ces formules dans un ordre différent permettra également de déterminer les valeurs en colonne des nouveaux intitulés.
Pour déterminer la transformation la plus intelligente sur ces intitulés, l'idée du professeur Benzécri était de considérer une représentation visuelle et géométrique des différents individus : Chaque individu peut être considéré comme un point, dont les coordonnées sont les valeurs sur la rangée de l'individu. Changer les intitulés des colonnes revient à effectuer un changement de perspective graphique autour des individus, selon des modalités restant à définir et combinant des opérations de rotation, translation, zoom avant ou arrière exclusivement (pas de déformation ni effet miroir)..
un schéma de rotation des individus vecteurs
Les individus (ronds gris) sont des points avec coordonnées
( chaque axe bleu sur le dessin représente une colonne
de valeurs dans la table). On les considère comme
des vecteurs (traits noirs). Au vu de leur répartition
propre, il serait plus judicieux de les représenter selon
les axes rouges. Le problème est de trouver
ces axes rouges, et d'effectuer la "bascule bleu/rouge"
Mathématiquement, effectuer de telles opérations sur les lignes et colonnes nécessite de disposer d'un outil à deux usages : la mesure de distance entre points et la mesure de coordonnées (projection) d'un point sur n'importe quel axe. Un théorème nous affirme que moyennant certaines conditions de structure sur les formules de passage, ces mêmes formules peuvent complètement remplir ce double rôle avec une seule écriture, à effet différent selon l'usage.
Récapitulons :
  1. Les quatre espaces sont liés en théorie
  2. Il s'agit d'expliciter ces quatre liens en formules de passage
  3. On cherchera à utiliser ces quatre formules de manière à s'en servir de métrique
  4. Dotés d'une métrique, et ayant la garantie que la manipulation des espaces de valeurs conduit à la manipulation des intitulés, on peut essayer de trouver la meilleure opération géométrique (typiquement une rotation doublée de plusieurs zooms sélectifs) de manière à simplifier les intitulés
En mathématiques, il existe une opération ô combien magique, permettant de trouver la meilleure rotation en question. L'opération conduit à des systèmes d'équations matricielles, dont les résultats permettent de construire directement les rotations combinées recherchées; cette opération s'appelle la diagonalisation, dont les résultats sont "prêts à l'emploi".
La manipulation des intitulés :
L'intérêt de manipuler les intitulés permet d'envisager de regrouper les individus entre eux, comme dans l'opération de "clustering", ou également de réduire les variables comme je l'ai expliqué plus haut. En fait, une réduction de variables consiste à compresser l'information contenue dans les variables, il y aura donc un compromis à faire entre le pouvoir de synthèse de la compression et sa fidélité aux données initiales. Pour ce faire, l'utilisation et l'interprétation de la métrique, doublée du modèle mécanique permet de mettre en évidence un indicateur simple et efficace de la représentativité de chaque variable nouvellement synthétisée. Il s'agit de la variance cumulée ou variance explicative. Ainsi une variable représentant 40% de la variance cumulée sera extrêmement importante et significative des données initiales : Elle devra absolument être interprétée selon les termes du métier qui prête ses données.
On peut également envisager que les individus et les variables aient des rôles interchangeables : c'est le cas d'un sondage d'opinion où des personnes sont invitées à exprimer leurs préférences sur un catalogue de produits, de personnalités, etc...Alors les individus peuvent être aussi bien les personnes que les entrées du catalogue; cette symétrie des rôles conduit à introduire une hypothèse dans le calcul, aboutissant à des formules spécifiques regroupées sous le nom d'Analyse Factorielle des Correspondances
La ressemblance de l'analyse de données et du Data Mining
Ici il est important de marquer un temps d'arrêt dans la présentation du modèle sophistiqué de l'analyse de données. En effet, le data mining reprend ce modèle, et exploitera l'algorithme de réduction des variables mais sans tenir compte de la partie du modèle qui suit. Il y a divergence entre les deux techniques, même si l'on pourrait très bien envisager un métissage des deux[2]. Les anglosaxons mettent plus l'accent sur le statut des variables étudiées, c'est-à-dire que certaines colonnes seront choisies et considérées comme résultats d'une boîte noire hypothétique, tandis que les colonnes restantes seront considérées comme les entrées de cette même boîte noire. L'important est d'expliciter cette boîte noire, c'est la problématique des Machines à apprentissage. Les variables/colonnes de sortie sont appelées "variables expliquées", tandis que les variables/colonnes d'entrée sont appelées "variables explicatives". Ainsi le logiciel Yale/RapidMiner fait-il la distinction entre des variables régulières (explicatives), des variables Id (identifiant d'un individu), des variables label et cluster (appartenance d'un individu à un groupe), la variable label étant toujours la variable expliquée; bien entendu le statut des variables est manipulable sur l'ensemble des colonnes.

modèle mécanique

Le professeur Benzecri voulait donner un éclairage particulier sur le rôle des individus dans une table d'analyse. Ainsi, selon la méthode de recueil des données statistiques sur le terrain, on pourrait considérer que chaque individu est plus ou moins fiable : c'est une problématique que l'on retrouve par exemple en journalisme, en recherche universitaire ou en investigation, lorsque différentes sources sont plus ou moins fiables. On va alors affecter un nombre complémentaire à chaque individu/rangée de la table, qui peut être un pourcentage (note de fiabilité) ou un nombre sans limites particulières (nombre d'observations de l'individu) par exemple.
En utilisant de tels nombres, la théorie montre que l'on modifie l'outil "métrique" dont nous avons parlé plus haut, ainsi que l'emploi de l'indicateur de variance résiduelle.

La pondération des individus

Cette partie, non-reprise en data mining, consiste à doter chaque individu (donc chaque rangée de la table d'analyse) d'un nombre réel appelé "poids"[3]. L'idée était de pousser l'analogie jusqu'à reprendre des éléments de la mécanique traditionnelle (mécanique du point) et essayer de repérer le pendant d'un élément du modèle mécanique dans la liste des éléments du modèle algébrique. Qu'est-ce qui, dans ma table, joue le rôle d'une masse, d'une distance, d'un centre de gravité, d'une inertie, d'une force ou d'un mouvement ? Les deux derniers éléments appartiennent à une branche de la mécanique appelée "dynamique" alors que les premiers ont plus un rôle descriptif, permettant de proportionner entre eux les phénomènes dynamiques. Il s'agit de la partie "cinétique" de la mécanique.
Concrètement : En tout état de cause, les différents objets de l'analyse de données, intégrant des notions de cinétique, sont tous rattachés à des concepts statistiques simples (moyenne, variance, etc...) mais présentant des formes différentes de celles connues, intégrant en toute logique l'influence des poids. A ce titre, il est intéressant de noter que l'analyse de données est une approche statistique (on ne s'appuie que sur les observations) tandis que le data mining étend son domaine aux approches probabilistes (création puis vérification d'hypothèses) pour pallier le manque d'individus à analyser, ou l'excès de variables par rapport au nombre d'individus.
Voici les concepts spécifiques du modèle mécanique :
  1. Les poids
  2. Le nuage
  3. Le barycentre
  4. L'origine
  5. L'inertie (par rapport à un objet).
Les "poids" sont, comme expliqué précédemment, des nombres scalaires[4] ayant le rôle d'une masse (et non d'un poids) permettant de relativiser l'importance des individus entre eux. La théorie prévoit de prendre des masses non-nulles et positives.
Le nuage est l'association des individus, exprimés sous forme de vecteurs, et de leurs poids respectifs. L'image à garder est celle d'un bouquet de roses, chaque rose ayant une tige spécifique (longueur, forme, nombre d'épines) et une fleur spécifique (taille de la fleur = poids).
le bouquet de roses, métaphore d'un nuage de vecteurs en analyse de données
Le barycentre est défini uniquement sur un nuage; pour reprendre l'image du bouquet, c'est le point d'équilibre, celui qui permet de tenir le bouquet sur un doigt...
L'origine est le point depuis lequel il est possible de convertir les individus en vecteurs avant de les intégrer dans le nuage. Chaque individu est assimilable à un point, pour le transformer en vecteur il faut le comparer à l'origine, comme pour un tracé au cordeau. L'origine du "bouquet" serait l'extrémité nue des tiges, toutes reliées entre elles. L'origine et le barycentre sont différents, et pour chaque méthode d'analyse de données ainsi que chaque nuage de données disponibles, il faudra vérifier si d'aventure ces deux points étaient confondus. Dans le cas du bouquet de roses, l'origine et le barycentre seraient confondus si le bouquet avait plutôt la forme d'une sphère.

L'Inertie en mécanique

L'inertie est un concept plus délicat à appréhender; dans le cas du bouquet, supposons que nous accrochions de manière rigide, encastrée comme disent les mécaniciens, l'extrémité (l'origine) du bouquet sur un arbre de sortie d'un moteur; mettons en route le moteur : Par la force centrifuge du bouquet (s'il lui reste encore des pétales[5]), quelle force subit l'axe moteur ? Cette force va dépendre en fait de deux facteurs : La force sur l'axe sera maximale si le bouquet est "en Té", perpendiculaire à l'axe. Les mécaniciens ne regardent pas l'inclinaison du bouquet, mais la distance la plus courte entre chaque rose et l'axe. Cette distance ne correspond pas à la longueur des tiges, il faut donc être prudent dans les calculs. En analyse de données, cela mène à des calculs matriciels dont il faut surtout retenir le résultat. Ainsi définira-t-on l'inertie de tout ou partie du nuage par rapport à un point, un vecteur, une droite, un plan, un Hyperplan. Des notices de calcul sont disponibles à cet effet dans les ouvrages spécialisés, je ne les ai pas reprises ici.

L'Inertie en analyse de données

En mécanique, l'unité de mesure d'une inertie est celle d'une masse multipliée par le carré d'une distance : Ce sont donc des kilogrammes-mètre carré (et non des kilogrammes par mètre carré).
En analyse de données, c'est un peu plus compliqué : Au total, l'inertie utilisée n'a pas d'unité : c'est uniquement la forme de l'équation qui permet l'analogie et la construction du modèle. En l'occurrence, l'inertie ainsi écrite ressemble à une variance, elle permettra non-seulement de rendre compte de la dispersion des données mais aussi de la physionomie du nuage, de son homogénéité géométrique.
schéma de représentation géométrique de l'inertie
En l'occurrence, si les données (les roses) ont tendance à s'organiser autour de deux ou trois zones particulières, le calcul d'inertie permettra de le repérer et de segmenter le nuage en deux ou trois catégories; ce principe de mosaïque par répartition d'inertie est à la base des algorithmes de cluster top-down, "flat cluster", ou classification descendante hiérarchique, par opposition à la méthode de Johnson.
En outre, et cela différentie l'inertie d'une simple variance, la mesure de dispersion qu'apporte l'inertie va dépendre de la direction dans laquelle on considère cette dispersion : C'est exactement le cas du bouquet de roses et de son inclinaison par rapport à l'axe moteur. Ainsi pourra-t-on qualifier plus ou moins grossièrement la forme du nuage et de ses composantes. Il sera alors possible de trouver des axes privilégiés le long des "concentrations d'inertie", remplaçant les colonnes initiales de coordonnées, selon lesquels lire les individus : C'est le principe de l'Analyse par Composantes Principales.
L'inertie peut donc être considérée en analyse de données comme une variance tenant compte de la géométrie et de l'orientation du nuage. Pour représenter un tel concept, le professeur Benzecri a utilisé le modèle matriciel qu'il avait précédemment mis en place : En fait, il y a plusieurs matrices d'inertie, car l'on montre que chacune de ces matrices correspond exactement aux formules de passage entre les quatre espaces vectoriels cités plus haut. Ces étranges matrices ont donc un double rôle : L'une des applications les plus connues de l'Inertie en analyse de données est la réduction de variables ou Analyse par Composantes Principales. Elle est également appliquée :

Les méthodes

Les différentes méthodes qu'a développées le professeur Benzecri tiennent compte de la position du barycentre par rapport à l'origine.

L'Analyse par Composantes Principales

Cette méthode part du principe que le barycentre et l'origine sont distincts. L'idée de base était que les décideurs politiques, économiques et administratifs se voyaient remettre des rapports de synthèse leur présentant la mesure de différents phénomènes sous forme de statistiques. Ces rapports présentaient généralement le phénomène mesuré en histogrammes, "camemberts" et tableaux reflétant la part d'influence de différents facteurs sur le phénomène.
Ces rapports faisaient des pages, étaient volumineux et ne permettaient d'avoir une vue synthétique de la situation au premier coup d'oeil. En effet, si un phénomène dépendait d'une dizaine de facteurs, il fallait alors dessiner l'histogramme du phénomène face au premier facteur, puis au second, puis au troisième...Ensuite il fallait présenter la part du deuxième facteur comparée à celle du premier facteur dans le phénomène, etc...La combinatoire des facteurs pouvait rapidement devenir infernale, et peut-être avez vous connu ces rapports statistiques qui s'étirent sur des pages sans fin ?
Cette problématique de présentation des rapports, sans d'ailleurs tenir compte du temps de recueil et d'assemblage des données, a été appelée le reporting, une des briques de base de la Business Intelligence. On y répond de deux manières :
une illustration de la réalisation d'un arbre de segmentation une illustration du principe de réduction des variables
arbre de segmentation[10] :
Les attributs-colonnes sont les niveaux,
les individus-rangées sont les branches
le principe de réduction d'une table :
A l'arrivée, il y a moins d'attributs qu'au départ
les nouveaux attributs sont différents des anciens
C'est à l'occasion de la deuxième solution que le professeur Benzécri a développé sa méthode, aujourd'hui la plus populaire aussi bien en Analyse de Données qu'en Data Mining. Cette méthode, appliquée à d'autres domaines que le reporting, offre des résultats qui en valent toujours la peine : Ainsi en lexicométrie, les composantes principales ne sont rien d'autre que les thèmes présents dans un ensemble de documents, ce qui permet une première automatisation de la gestion des documents en fonction de leur contenu.

Introduction : l'ACP en sciences humaines

Remplissez ce questionnaire de 20 questions en cochant les cases. Puis reportez-vous en page finale où le tableau vous permettra de calculer vos points. Enfin, en fonction de ce nombre, lisez le paragraphe qui correspond : "Vous êtes ceci, vous devriez faire cela..."
Que ce soit à la plage en lisant le dernier psycho-test d'un magazine, ou lors d'un entretien d'embauche, nous avons tous eu droit un jour à ces satanés tests qui commencent comme un sondage et finissent comme une leçon de morale, parfois amère !
Le principe est pourtant simple : Sur les données que représentent les cases que vous cochez, les concepteurs du test ont préalablement effectué une réduction de variables, et le tableau de calcul est un classificateur. De mon avis personnel, le système est plus que rudimentaire et n'intègre pas de souplesse pour s'adapter par apprentissage...
Pour vous donner un exemple de la réduction de données effectuée à la conception du test, je souhaite vous parler d'un test dit "du socio-profil"; après avoir rempli un questionnaire sur la manière dont vous avez de parler aux autres, de gérer les problèmes, le tableau de calcul final vous classe dans une image, un plan à deux axes principaux : Puis l'application d'une mosaïque graphique vous classe dans l'une des quatre grandes catégories :
la mosaique des quatre profils sociaux
Comment les concepteurs s'y sont-ils pris pour créer un tel test ?
Il faut d'abord considérer qu'ils ont d'abord créé un questionnaire dont le nombre de questions a été supérieur à celui qui vous a été présenté. Chaque question est à considérer comme une variable
Après avoir enquêté auprès d'un nombre signifiant de personnes (au minimum une trentaine), ils ont utilisé une Analyse par Composantes Principales pour détecter d'éventuelles tendances dont ils ignoraient l'existence. L'ACP fonctionnant sur la base de l'Inertie, chaque nouvelle variable (appelée "axe principal") est affectée d'un pourcentage représentant son importance dans le lot de données : Il s'agit directement d'un ratio d'Inertie à l'Inertie totale. Ainsi ils ont sélectionné les deux premiers axes, dont l'Inertie cumulée devait dépasser les 60%, expliquant donc 60% de l'information contenue dans les résultats d'enquête. On passe ainsi d'une vingtaine de questions, donc d'une vingtaine de variables, à deux axes soit deux variables.
À partir de ces axes, il est possible de mesurer à rebours la contribution de chaque question à l'un des axes, permettant ainsi de sélectionner les questions les plus importantes.
Une fois les questions choisies, ils réutilisent l'ACP pour obtenir le lot final de questions, ainsi que les formules matricielles de passage dont nous avons parlé plus haut.
La création de la mosaïque suit alors la méthode de Johnson pour faire apparaître un jeu naturel de catégories : C'est à ce moment qu'est déterminé le nombre de "paragraphes de conclusion".
Enfin, pour déterminer l'appartenance d'un individu à l'une de ces catégories, ils vont mettre au point un "classificateur" dont la nature dépendra de la qualité de l'ACP effectuée auparavant : Une ACP peut extraire pratiquement autant d'axes que de variables initiales et plus le classificateur prendra en compte de nombreux axes, plus la décision de classification sera juste. En comparant le nombre de questions d'un test aux deux axes principaux, et sous réserve de connaître l'inertie des deux axes, vous pouvez donc avoir une idée de la fiabilité du jugement porté...[6]

Je voudrais vous citer une histoire qui m'est personnellement arrivée, et qui est éclairante sur la manière d'utiliser ces tests :
Je travaillais depuis trois ans dans un service, où j'avais eu le temps de faire mes preuves. Au rythme effréné des dossiers à traiter, j'avais acquis de l'expérience et étais connu de tout le service comme un ingénieur original, efficace et affable. Puis un nouveau chef arriva : Parlant beaucoup de management, il me proposa le désormais connu test du socioprofil. Je ne savais pas répondre à la moitié des questions, et dès que j'hésitais il répondait à ma place en m'expliquant qu'on est toujours mieux jugé par les autres; puis dans la foulée, il fit le test lui-même...Résultat du test : je me suis retrouvé "analysant", "renfermé et cherchant la sécurité" tandis que lui se retrouvait "promouvant" !!
A l'évidence, la démarche était perverse car que se serait-il passé si à tout hasard le test montrait que j'étais "promouvant" et lui "analysant" ? J'en ai déduis : Je connais un ami dans le milieu de la psychanalyse, qui me racontait comment il avait été embauché comme adjoint à un patron d'entreprise, et comment l'affaire avait mal tourné car le patron n'avait pas le sentiment de contrôler ce psychanalyste, pensant probablement grâce à lui pouvoir contrôler le reste de l'entreprise. L'analyse de données, de par sa nature statistique, ne permet d'appréhender que des phénomènes de l'ordre du sociologique, en aucun cas du psychologique : Par mesure de déontologie, il est proscrit l'utilisation de la psychologie en management.
Un test comportemental ne peut donc qualifier qu'une attitude, un comportement au sein d'un groupe et donc un phénomène de circonstance à prendre en compte dans la gestion d'un groupe, et non un jugement de valeur sur la personnalité d'untel ou untel...
Le mieux est encore de travailler au cas par cas : Une analyse de données qui serait effectuée in vitro, dégageant des axes principaux, des catégories et des classificateurs spécifiques au contexte a bien plus de valeur et de pertinence que ces tests de magazine. C'est en cela que je préfère de loin la démarche du "data miner", fondée sur un apprentissage et une exploration empirique des données.
Imaginez donc un curieux test sociologique ou psychologique dans lequel vous pourriez notifier votre accord ou désaccord sur le résultat : Le tableau de calcul se modifierait lentement et de lui-même en fonction des votes de chacun...Ça, c'est du vrai test, de l'analyse de données dans toute sa splendeur !
De manière générale, chaque fois que vous verrez un schéma de principe où deux axes en croix supportent un nuage de points ou une mosaïque, vous pourrez soupçonner l'emploi d'une ACP sur des données statistiques. Ainsi est-ce le cas de cette analyse socio-économique qui a été menée sur plusieurs pays dans le monde pour étudier le lien entre les valeurs morales dans un groupe et sa situation économique. Les résultats sont ici : L'étude des valeurs et des sociétés. L'étude ne précise pas si ce sont les valeurs qui sont la cause ou la conséquence de la situation économique. Pour cela, il faudrait analyser : L'une des conclusions était de dire que les sociétés les plus pauvres avaient tendance à conserver des valeurs autocratiques, peu démocratiques, de manière à se protéger des difficultés de la vie et à assumer le manque de subsistance avec le moins de casse humaine possible. Cela expliquerait que les familles soient très hiérarchisées et les mariages "pilotés de près"...
A l'inverse et à titre personnel, je m'interroge sur la motivation réelle des clergés et des chefs spirituels à souhaiter un retour au dépouillement, à "l'ordre" et à la religion collective dans les sociétés occidentales...

Le fonctionnement de l'ACP

Comme vous commencez probablement à vous en douter, la plupart du système théorique de J.P. Benzecri va nous permettre de comprendre le fonctionnement de l'Analyse par Composantes Principales. Si l'analyse de données met l'accent sur cette méthode particulièrement populaire, il faut savoir qu'il existe d'autres techniques de réduction, produisant des résultats différents, avec autant d'interprétations différentes.
Dans tous les cas, il faut considérer qu'une technique de réduction a pour but de compresser l'information contenue dans les colonnes : Pourquoi utiliser une vingtaine de colonnes pour représenter des individus (âge, date, poids, sexe, profession, longitude, latitude, salaire, etc...), alors que trois colonnes judicieusement choisies peuvent représenter de 70 à 90% de l'information contenue au départ ? Qui plus est, une fois que l'on a calculé les composantes principales et exprimé les nouvelles coordonnées des individus sur ces composantes, les axes sont sujet à interprétation et peuvent représenter : En termes de fonctionnement intellectuel, il n'est pas facile de se dire que l'on peut passer d'un tableau à 100 colonnes, à un tableau à 4, 5, 6 ou 7 colonnes au choix : C'est bien cette notion de choix qui est gênante; c'est aussi pour cela que l'ACP doit être considérée comme une compression des données dont on règlerait la finesse et le taux. Il a d'ailleurs été démontré que si chaque colonne tend vers une représentation continue de valeurs, et non-plus finies et séparées par des cases, l'ACP revient effectivement à un algorithme de compression.
Pour reprendre ce qui a été déjà écrit, le principe de l'ACP consiste à : Si l'on considère chaque individu (en ligne) comme un vecteur-point ("affine"), il aura autant de coordonnées que de colonnes. Réduire le nombre de colonnes revient à trouver des axes "collant" au plus près de concentrations de vecteurs-points : Ces concentrations n'étant que très rarement homogène, il y a des "grumeaux" que les axes principaux sont censés traverser. Pour repérer ces "grumeaux", on introduit l'Inertie du nuage qui doit être vue comme une variance artificielle intégrant l'information de direction selon les colonnes. Si donc le "grumeau de points" a la forme d'un cigare, on devrait être en mesure de repérer son axe grâce à l'Inertie. Techniquement, on calcule d'abord la "matrice d'Inertie", puis on minimise l'Inertie résiduelle ce qui revient à diagonaliser la matrice de covariance des colonnes. Je dis bien "cela revient", car c'est une analogie de calcul entre l'équation de diagonalisation et l'équation de réduction du résidu d'Inertie qui permet l'abus de langage[7].
Pour construire la matrice de corrélation des colonnes, il suffit d'appliquer le modèle vecteur/dual de Benzécri pour obtenir son expression :
schéma d'explication pour la construction de la matrice de covariance à partir de la table d'analyse
Si donc on a 20 attributs à réduire, la matrice de covariance sera carrée de côté 20...A retenir :
La matrice d'Inertie du nuage est de facto la matrice de covariance des attributs deux-à-deux
Avant toute opération d'ACP, il faut normaliser les colonnes de manière à ce qu'elles soient débarrassées des unités physiques de mesure employées et des ordres de grandeur propre à chaque colonne
La réduction du nombre de colonnes revient dès lors à produire un nombre restreint d'axes signifiants, mais les calculs montrent que ces différents axes n'ont pas la même importance. Ces mêmes formules de calcul permettent d'établir un coefficient d'importance pour chaque axe, qui servira à classer les axes entre eux mais aussi à évaluer l'importance de l'information que chacun d'eux représente. Ce coefficient est un pourcentage, appelé pourcentage d'inertie expliquée et représente en quelque sorte le taux de compression des variables initiales.
Ainsi, si un axe possède un pourcentage d'inertie expliquée de 60%, autant vous dire qu'il doit être analysé et interprété sous toutes les coutures. Si de plus, au départ, nous avions une vingtaine de variables, cela signifie que l'axe représente en partie 60% d'entre elles soit environ 12 variables !! C'est là toute la puissance de l'ACP...
L'autre intérêt de l'ACP en particulier, et des méthodes de réduction de dimensions en général est qu'il est mal aisé de visualiser des individus possédant plus de quatre coordonnées : Pour un nombre supérieur de variables, on a recours à des visualisations non-linéaires qui font l'objet de développements théoriques : La visualisation en "data mining" est un métier à part entière. L'analyse de données, quant à elle, est restée sur des images à deux dimensions qui se différencient par la nature des points représentés : Il devient alors évident qu'en partant d'une vingtaine ou plus d'attributs et en les réduisant, on arrive à un nombre d'axes pouvant être représentés par l'une des visualisations ci-dessus.
La réduction de dimensions, en l'occurrence l'ACP, permet d'expliquer des connaissances liées au métier mais aussi permet de faciliter la visualisation des données et de comprendre leur structure
Le seul problème avec l'ACP est que c'est un algorithme particulièrement gourmand en temps de calcul lorsqu'appliqué à des tables de data mining faisant plusieurs dizaines voire plusieurs centaines d'attributs. On applique alors une version "rapide" de l'algorithme en utilisant un réseau de neurones artificiels qui mime la séquence de calcul de l'ACP matricielle. Un tel algorithme, appelé "Generalized Hebbian Algorithm" (GHA) possède toutefois un défaut majeur : La variance expliquée pour chaque axe est estimée, elle n'est pas exacte. De plus, on ne peut pas le faire travailler à seuil de variance fixé : Avec l'ACP traditionnelle, on fixe une variance expliquée à 80%, puis l'algorithme calcule autant d'axes principaux que nécessaires tant que la somme des inerties estimées n'atteint pas ce seuil.

Approches probabilistes et statistiques

L'analyse de données, et son approche américaine le "data mining", sont en constante évolution. Ce ne sont pas des connaissances figées, elles suivent le mouvement de la recherche scientifique à mi-chemin entre : Aujourd'hui encore, la manière de traiter une table d'analyse évolue constamment. Les choix d'écriture de la table et ses stratégies d'expoitation changent. A chaque nouvel algorithme, un effort est fait a posteriori par les chercheurs pour interpréter le sens des résultats et leur trouver une application pratique. Et ça fonctionne !!
Ainsi le comportement de l'ACP a-t-il été repris pour s'étendre à la réduction de dimensions. L'idée d'une réduction est la suivante :
  1. On part d'une table de départ
  2. On veut aboutir à une table d'arrivée, avec moins de colonnes
  3. Pour cela, on utilise des formules de calculs qui recombinent les valeurs des colonnes entre elles
  4. Ces formules sont du type : "colonne d'arrivée numéro P" = 5 x "colonne de départ numéro 10" moins 3 x "colonne de départ numéro 4"
  5. Ces formules sont donc complètement résumées par la suite de leurs coefficients (5, -3) et les numéros des colonnes auxquelles on applique ces coefficients (10, 4)
  6. L'objet hybride {(5,-3),(10,4)} peut alors être choisi (on change les valeurs) de manière à régler l'effet sur les colonnes d'arrivée
  7. Pour mesurer cet effet, et donc faire les bon choix, on compare les colonnes d'arrivée entre elles
Jusqu'ici, le critère de comparaison des colonnes entre elles était un critère statistique : Il s'agissait de mesurer la corrélation entre les colonnes d'arrivée, et de faire en sorte que cette corrélation soit la plus faible possible. Moins les colonnes sont corrélées, plus elles ont de chance chacune de "porter" de l'information originale, et moins on aura besoin de nombreuses colonnes pour exprimer complètement cette information, d'où le phénomène de compression/réduction des colonnes. Les mathématiciens disent que les colonnes sont orthogonales entre elles au sens de l'Inertie.
L'emploi de l'inertie étant le premier critère historique, il y en a un autre qui reproduit plus fidèlement la représentation de "l'originalité des colonnes", mais qui aboutit à des formules et des résultats différents : C'est l'entropie, et toutes les approches probabilistes qui en découlent.
En gros, l'entropie, c'est ce qui est original, ce qui n'est pas prévu. La puissance de cette approche est telle qu'elle ne nécessite plus de modèle mathématique a priori : Vous faites tourner les algorithmes sur des données, et il vous dit tout ce qu'il y a dedans, de manière distincte ! De plus, comme c'est une approche s'appuyant sur des probabilités, on peut la faire tourner sur un très faible nombre de données...
schema d'explication des differents types de desentrelacement en analyse de donnees
Concrètement, les algorithmes suivants s'appuient sur la réduction de dimensions par minimisation de l'inertie : Tandis que les algorithmes suivants s'appuient sur la maximisation de l'inter-entropie : Quoi qu'il en soit, différentes propriétés de l'inter-entropie ont été observées, bien que non-démontrées formellement : Pour donner un tel exemple de la puissance de ces algorithmes, je voudrais traiter le cas de "ICA".
Il s'agit d'un algorithme particulièrement intéressant, puisqu'il répond au problème de la "cocktail party". Imaginez le salon d'un notable local, ouvert sur les jardins...C'est un soir, et tous les invités sont présents pour ces mondanités. Tout le monde discute, et de petits groupes se sont formés, le verre à la main...
Un petit malin a mis des microphones partout. Il sait combien il y a de micros, mais : Ce personnage indiscret veut simplement, et uniquement par le calcul : Ayant utilisé cet algorithme dans son principe sur d'autres problématiques, les résultats ne sont pas prévisibles à l'avance mais toujours fascinants. Le principe est que sur chaque microphone de notre cocktail party, un exemplaire de tout ou partie des voix est enregistré, sans que l'on sache comment...A ce titre, l'algorithme ICA désentrelace les différentes composantes entre elles en maximisant l'entropie entre ces voix : Le résultat est spectaculaire !! Le nombre de personnes dans la réception est alors inférieur ou égal aux nombres de composantes indépendantes que l'algorithme a pu extraire. Typiquement, l'algorithme extraiera deux composantes sonores relatives à la même personne, parce que cette personne a parlé fort à un moment, et doucement sur un autre ton à un autre moment...
Et tout cela uniquement sur des considérations d'entropie entre les voix...!!
D'autres applications tout aussi intéressantes ont été rapidement trouvées :

L'Analyse Factorielle des Correspondances

Le principe

L'Analyse Factorielle des Correspondances, en abrégé AFC, est ce qui a valu la célébrité au professeur Benzécri dont j'ai beaucoup parlé dans les lignes précédentes. Curieusement, les travaux sur l'ACP ou l'ICA ne sont pas de lui. En revanche, il a reformulé ces travaux dans son modèle matriciel, et introduit la méthode que je vais exposer, donnant un sentiment d'unité à tous ces outils. On parlera dès lors d'analyse des données si l'on se place dans ce modèle matriciel pour y déployer toutes ces méthodes.
L'AFC est une méthode particulière car elle ne s'appuie pas sur l'analyse d'un tableau de réalisations statistiques, tel que le serait un journal comptable ou un historique de fonctionnement d'une machine. Pour pouvoir appliquer l'AFC, il faut d'abord effectuer un comptage, une réorganisation des valeurs pour compter leurs effectifs : Il s'agit d'écrire un Tableau de contingence[11]. Imaginons un sondage (car la méthode y est recommandée) où le questionnaire à remplir est composé de deux séries de questions : On obtient alors un tableau d'analyse où les lignes sont chacun des individus sondés, tandis que les colonnes sont les réponses aux questions du formulaire. Ces colonnes peuvent se regrouper selon les deux critères précédents. Pour savoir s'il y a un lien entre la classe sociale et les intentions de vote, il peut être logique de penser à effectuer une ACP sur ce tableau...Et le professeur Benzécri a montré qu'il était plus précis et plus judicieux de procéder différemment !
L'idée est de prendre et de se fixer deux colonnes à mettre en "vis-à-vis", en correspondance (d'où le nom de la méthode). Prenons par exemple la "profession" et "l'intention de vote au second tour". On va recréer un tableau à partir de la liste des sondés et de leurs réponses, où ce nouveau tableau aura en ligne les valeurs de la colonne "profession" et en colonne "intentions de vote". Il me semble (à vérifier) qu'une telle fonctionnalité de ventilation existe sous Excel avec les tableaux croisés dynamiques. Dans ce nouveau genre de tableau, chaque case contient le nombre d'individus, la fraction de rangées du tableau de départ, qui correspond aux critères de valeurs sur les colonnes.
illustration de la creation du tableau de contingence
La première remarque est que le tableau peut être lu de manière symétrique : Les colonnes peuvent prendre le rôle des rangées et réciproquement. Ce qui est traduit c'est une répartition d'individus selon un critère et selon un autre. Cette mise en correspondance de deux colonnes, de deux critères est précisément ce qui vaut le nom de "tableau de contingence".
La deuxième remarque, proche de la première, est que les valeurs comptées dans chacune des cellules ont encore plus de pertinence si elles sont exprimées sous forme de pourcentages : Un deuxième exemple d'AFC, que je traiterai plus en détail en lexicométrie, est l'analyse lexicale d'un ensemble de textes. On met en vis-à-vis dans un tableau de contingence, en ligne une liste de textes, en colonne une liste de mots-clés quelconques apparaissant au moins une fois dans au moins un texte. On compte les occurrences, et l'AFC révèle des répartitions de textes et de mots-clés selon des zones bien distinctes, extrêmement utiles en analyse du sens et en indexation documentaire. Un autre exemple d'application des tableaux de contingence est la participation boursière croisée : Des investisseurs achètent des capitaux sur des entreprises. Qui achète quoi ? Y a-t-il une logique cachée ?
L'idée majeure de l'AFC est d'effectuer une ACP particulière sur le tableau de contingence comme si ce tableau était une table d'analyse classique, munie du
modèle algébrique de Benzécri. Si le tableau de contingence représente un entrelacement de valeurs croisées, l'AFC désentrelace ce tableau pour regrouper les individus et modifier les critères de mesure afin d'avoir une vue claire de la situation et comprendre les forces en présence.
Toutefois, la nature même du tableau de contingence conduit à modifier la métrique utilisée lors de l'ACP. La métrique introduite pour créer le concept d'Inertie était une simple distance euclidienne pondérée. Comme il s'agit de mesurer des distances entre des pourcentages, une métrique plus adaptée est la métrique du "Khi-2". Ainsi l'AFC n'est rien d'autre que :
Une Analyse par Composantes Principales, effectuée sur un tableau de contingences, avec une métrique du Khi-2. Rien de plus. l'AFC permet de répondre à la question "qui fait quoi" de manière lisible
En revanche, l'examen des propriétés de cette opération montre que si l'on analyse le tableau de contingence d'une part, et son "tableau symétrique" (transposé) d'autre part, on obtient les mêmes valeurs propres (quantité d'information représentée par chaque nouvel axe) mais des vecteurs propres différents (signification de chaque axe). Les calculs pour y arriver sont également simplifiés...
Les techniques d'interprétation et de visualisation sont alors les mêmes qu'en ACP, avec des représentations hybrides par exemple, mêlant les variables et leurs valeurs, ce qui permet d'expliquer le rôle des variables de départ et la position des individus dans la nouvelle mosaïque calculée par AFC.

Les extensions et applications

J'ai parlé tout-à-l'heure d'un tableau de contingences opposant la classe sociale d'un votant à ce qu'il vote effectivement. Ce groupement des critères de formulaire en deux est fondamental, puisqu'alors vous comprendrez que toute analyse sociologique d'une population peut se ramener, à un moment ou un autre, à un tableau de contingence; ainsi, dans les machineries sur Internet qui gèrent les groupements de bookmarks, ou le partage de fichiers (logiciels, musique, etc...), ces machines utilisent probablement et entre autres l'AFC pour découper la population des inscrits en classes de comportement, reliant ce que les abonnés sont (profil personnel, "avatar", etc..) à ce qu'ils choisissent (centres d'intérêt, signets et marque-pages). C'est ainsi que de telles machines peuvent s'adapter et faire des recommendations pertinentes, comme celles que je cite sur la page "musique". Cette technique est souvent appelée "scoring", mais le terme est abusif puisqu'il est confondu avec des classificateurs, qui sont plus du data mining. Un exemple de "scoring" : StumbleUpon.
De manière générale, il existe d'autres analyses factorielles, d'autres méthodes qui diffèrent de l'AFC par le résultat atteint et le type de tableaux qu'elles traitent : Elles s'appuient toujours sur le principe de la diagonalisation et l'utilisation d'une métrique spécifique au type de tableau. Ainsi nous avons :
L'Analyse des Correspondances Multiples (ACM)
Cette méthode vise à consolider différents systèmes de classification qui ne coïncident pas entre eux. Malgré son nom, elle n'a que peu de ressemblances avec l'AFC. L'idée est que si une centaine d'individus est classifié par un critère C1 dans 5 catégories différentes, et en même temps par un autre critère C2 dans 3 catégories, C1 et C2 n'ont a priori rien à voir. L'ACM peut alors dresser une carte de répartition mixte des individus et des catégories de C1 et C2 en même temps. Cela permet d'aboutir à une comparaison explicative de C1 vis-à-vis de C2 et réciproquement. Astucieux !!
L'Analyse Factorielle d'un Tableau de Dissimilarités (AFTD)
Un tableau de dissimilarités peut être lié par certaines relations à un tableau de similarités et à un tableau de distances, mais sous certaines conditions. L'idée est qu'on peut facilement construire un tableau de dissimilarités, mais passer à un tableau de distances et donc s'acheminer vers les méthodes de "clusters" et autres classifications non-supervisées nécessite un effort de vérification que permet justement l'AFTD
Mon opinion est que ces analyses sont appelées factorielles parce qu'elles s'appuient sur des tableaux de contingence et dérivés (tableau disjonctif, tableaux de distances,etc...) qui visent à "comparer des choses entre elles" et non décrire de manière comptable et analytique un ensemble d'individus. Par la relative symétrie de rôles des lignes et des colonnes, le modèle complet de Benzécri se justifie pleinement, alors qu'une table d'analyse se contentera du modèle "data mining".
Or, typiquement, pour obtenir ces tableaux de contingence, il faut nécessairement aggréger les données, c'est-à-dire utiliser des statistiques descriptives de type "somme des individus", "moyenne des individus", etc...Cette opération est connue sous Excel et s'appelle le tableau croisé dynamique, qui se généralise à la notion d'hypercube. Une somme ou une moyenne d'individus est alors calculée pour certaines classes, et est appelée "aggrégat". Une base de données qui contient des hypercubes d'aggrégats possède une structure spécifique, dite "OLAP". C'est LA structure de base utilisée en Business Intelligence.
Vous constaterez alors de vous-mêmes que les méthodes dites "factorielles" s'appuient naturellement sur le contenu des aggrégats, puisqu'un hypercube de dimension 2 (un carré, en fait...) contenant des aggrégats de type "somme des individus" peut bien vite se ramener à un tableau de contingence après normalisation. En outre, les traditionnelles précautions d'emploi qu'exhibent les statisticiens à l'encontre des "data miners" sont généralement des valeurs soit de statistique descriptive, soit de segmentation, soit d'effectifs de classes, qui ne sont strictement rien d'autres que la bonne lecture des bases OLAP.
Conclusion :
  1. Les méthodes françaises d'analyse de données, ou méthodes dites "factorielles", s'appliquent essentiellement sur des données consolidées dans les bases OLAP
  2. Un "data mining" irréprochable, c'est-à-dire qui tiendrait compte du contexte, devrait toujours se faire en appui d'un système de "BI", mais en amont des bases OLAP, au niveau de l'entrepôt des données brutes
  3. La partie "non-supervisée" du data mining peut servir à construire le système de "BI", notamment les clusters pour la segmentation, et les règles d'association pour définir les axes d'hypercubes. Alors, au sein de ces hypercubes, des analyses factorielles seraient du plus bel effet !

Entre chiens et loups : les méthodes hybrides

Les méthodes qui suivent ne sont pas spécifiquement liées au "data mining" mais restent dans le giron de l'analyse de données. La différence entre les deux disciplines réside, nous l'avons vu, dans la différence des modèles, l'un se contentant d'un modèle algébrique, l'autre poussant jusqu'au modèle mécanique pour introduire la notion d'Inertie et les méthodes qui s'y rattachent. Là, le problème de modélisation se corse car ces méthodes manipulent en entrée une table de données et en sortie un graphe, et réciproquement. Reste à voir l'emploi et l'interprétation.

L'analyse multicritères

L'analyse multicritères est un vocable qui est apparu essentiellement en France vers les années 1970, sous l'impulsion des travaux de plusieurs chercheurs de l'Université Paris Dauphine. Si vous avez plusieurs activités à effectuer, chacune d'elle étant caractérisée par plusieurs mesures, vous aurez probablement à les ranger les unes par rapport aux autres[12]. Lorsque chaque activité est par exemple mesurée par sa durée, il est très simple de les classer toutes par durée croissante. En revanche, lorsque chaque activité est mesurée par deux facteurs, voire plus et qui ne sont pas simultanément croissants ou décroissants, l'affaire devient nettement plus "coton".
C'est tout le sujet de l'analyse multicritères. Je l'ai par ailleurs rangée dans la page "analyse de données", car ce n'est pas du data-mining, mais ça y ressemble :
  • Comme en data-mining, il s'agit de munir chaque attribut d'un poids, ainsi dire si la durée d'un travail est plus importante que son prix ou réciproquement
  • A la différence du data-mining, toute méthode d'analyse multicritères consomme en entrée une table de données (les lignes sont les objets à classer, les colonnes les critères selon lesquels on classe) et produit un graphe de surclassement donnant la préférence d'un objet sur l'autre au travers de chaque lien. Ce graphe doit être idéalement un arbre
  • La différence entre arbre et graphe correspond à l'analyse des circuits fermés. Selon la manière dont est résolu ce problème, on peut avoir différentes moutures de méthodes d'analyse
  • On pourrait imaginer contourner l'emploi de méthodes d'analyse multicritères par l'emploi de méthodes d'aggrégations de données, comme les "clusters" en data mining ou la méthode de "Johnson". Dans le livre sur l'analyse visuelle des données, j'ai ainsi pu constater l'emploi d'un combinat entre une méthode de "cluster plat" et une méthode d'arbre de recouvrement minimal faisant office à l'évidence d'analyse multicritères. L'idée est de dire que si plusieurs éléments se ressemblent, ils sont très différents d'autres éléments en termes de distance, ce qui constitue une base de classement.
  • Les bases théoriques des méthodes d'analyse multicritères se retrouvent en data-mining pour les algorithmes "votés" : perceptron voté, régression votée, etc...
Un exemple fascinant d'application de ces méthodes, et que ni moi ni personne de ma connaissance n'avons jamais vu appliqués dans les administrations est la résolution des marchés publics : Après un appel d'offres, plusieurs industriels avancent chacun leur offre commerciale, s'appuyant sur les critères d'un cahier des charges, chaque critère pesant plus ou moins lourdement...C'est d'autant plus paradoxal que depuis l'administration stalinienne et ses algorithmes du Gosplan (lemme de Farkas-Minkowski, etc...), j'aurais bien imaginé des administratifs formalisant et rationnalisant tout, même les méthodes de prises de décision.
Pour information, j'ai testé un tel problème lorsque j'ai choisi l'hébergeur de ce présent site parmi plusieurs, en m'appuyant sur le data-mining : l'idée est de filtrer les attributs d'une part (simplification de la liste des critères), d'aggréger les offres ressemblantes d'autre part (détection des types d'offres) pour construire une carte visuelle de même rôle que le graphe de surclassement. Le filtrage des attributs s'appuyait sur l'union de deux filtrats, l'un non-supervisé pour ne garder que les attributs qui distinguent les concurrents entre eux (variance des attributs) et l'autre sur l'ajout d'une "note de gueule" que l'analyse discriminante ("wrapper") permet d'objectiver et d'expliquer. Résultat surprenant : la qualité et le rapport qualité prix se trouvent exactement là où il n'y a pas de publicités "pop-up". Méthode ELECTRE : double critère : préférence et exclusion. Paris Dauphine, double mouture ELECTRE I et ELECTRE II
Produire un graphe à partir d'une table :
  • Autres méthodes table/graphe : matrice distance (voir aussi méthode de Johnson), CRF et entités nommées
  • Spécificité ELECTRE : applications
Les relations d'ordre et la théorie des graphes.
Insister sur les différents types de relation d'ordre : ordre total, ordre partiel, autres ? droite contre graphe
Schéma/galerie des différents types d'ordre.

L'analyse des proximités

Relations locales dans un graphe : déterminer le bon modèle vectoriel pour chaque noeud, et ses valeurs associées.

La Classification Ascendante Hiérarchique

La méthode de Johnson

Dans cette partie, j'aborde un problème plus général que la simple méthode énoncée en titre, qui est celui de l'analyse non-supervisée des données statistiques. L'idée est de disposer d'une série d'unités statistiques, que l'on veut regrouper entre elles selon la ressemblance des valeurs qu'elles prennent. Les anglosaxons ont appelé cela "cluster analysis", ce qui se traduirait en français par "analyse des agglomérats" ou "analyse des conglomérats".
Petite revue de vocabulaire :
  • En anglais, les "aggregates" correspondent aux aggrégats, c'est-à-dire à ces tableaux de synthèse, aux tables de contingence de l'AFC dans les bases "OLAP".
  • En anglais, les "clusters" se traduisent par "grappes". C'est un terme que l'on retrouve aussi en informatique pour désigner un assemblage de machines ayant vocation à fournir de la puissance de calcul sur une machine virtuelle unifiée
  • En français, "cluster analysis" pourrait se traduire par "analyse des grappes" ou "analyse des agglomérats". La notion de "conglomérat" a quelque chose de supervisé, planifié, piloté...
La notion de regroupement par similarité est donc un concept central de l'analyse non-supervisée. Elle est importante dans ses applications, car elle permet le développement d'une série d'outils "à tout faire", dont personnellement je me sers en début de n'importe quelle analyse :
  • L'analyse des agglomérats me permet de déterminer la structure intrinsèque d'une population. Cette structure se traduit par un jeu de tranches, comme par exemple les "tranches d'âge", les catégories socio-professionelles et autres...À la lumière de ces tranches, je peux critiquer et interpréter mes statistiques en toute sécurité
  • Ce même système de tranches ou "segments" me permet de conduire des échantillonnages astucieux, dits "échantillonnages stratifiés", de mes données. La légendaire problématique de la puissance de calcul en analyse exploratoire est ainsi contournée.
  • L'apppartenance d'un individu à une "tranche" ou à un "profil" permet non-seulement de cerner de manière astucieuse le rôle de chacune des variables explicatives, mais aussi permet d'introduire une notion de "domaine de validité d'un modèle" sous forme d'une variable explicative supplémentaire. Si je construis ultérieurement un modèle de décision ou d'estimation, il deviendra de facto un modèle composite, assemblé depuis les sous-modèles de chaque domaine ou profil. On s'achemine alors vers les machines à base d'instances, et on peut alors expliquer plus simplement le fonctionnement d'une régression logistique
Tout le problème est donc, comme en régression logistique, de trouver une segmentation des données qui admette un modèle le plus simple possible au sein de chaque "zone du pavé". Dans le cas d'unités statistiques qui admettraient deux variables, une simple image donc, le parallèle entre l'arborescence des domaines et la représentation visuelle de ces domaines est appelé "tree-map" ou "carte-arbre".
le treemap du disque illustration de la regression logistique
Un exemple de "treemap" Illustration de la regression logistique
Historiquement, le premier algorithme de segmentation a été la classification de Johnson. Il a été repris en data mining sous le nom de "cluster bottom-up"
De manière empirique, on considère que la CAH peut être appliquée tant que le nombre d'individus ne dépasse pas 220. Pourquoi 220 !? Je n'en sais rien, mais ce seuil consacré par l'usage est efficace...La séquence générale d'une classification de Johnson est la suivante :
  1. Introduire une mesure de distance mathématique entre les individus
  2. Elaborer un tableau de distances entre les individus deux-à-deux. S'il y a 5 individus, le tableau aura 5 lignes et 5 colonnes.
  3. La distance entre A et B est de facto la même qu'entre B et A. Le tableau n'est donc rempli qu'à moitié.
  4. On crée un curseur imaginaire le long d'une ligne, qui va de la plus petite distance du tableau à la plus grande.
  5. Ce curseur sert de seuil de regroupement. Lorsqu'il est au minimum, on a autant de groupes que d'individus. Lorsqu'il est au maximum, on a un seul groupe contenant tous les individus.
  6. A chaque passe, on augmente d'un cran le curseur : des individus et des groupes existants sont regroupés en groupes plus grands.
  7. Au final, le schéma qui décrit l'emboîtement des sous-groupes entre eux est un arbre, appelé "dendogramme".
L'agglomération d'un cluster ascendant Les différents points-individus appartiennent à un cluster plat, dont les catégories sont représentées par les couleurs
L'agglomération d'un cluster ascendant Les différents points-individus appartiennent
à un cluster plat (couleurs)
L'exploitation d'un tel arbre ressort plus de l'analyse des aggrégats, et peut conduire à un émondage...
Cette méthode peut servir aussi bien à regrouper des individus (lignes) dans un arbre de catégories empiriques, qu'à regrouper des variables (colonnes) entre elles. L'idée est de transposer la table d'analyse, les individus devenant variables et vice-versa. Ce mécanisme de transposition est typique de l'analyse de données à la française, et assez peu connue des "data miners"...L'intérêt de regrouper les variables est de pouvoir les manipuler plus facilement, surtout si elles se comptent par centaines ou milliers, comme en text-mining ou en analyse d'entrepôt de données. Cela permet également de mieux les comprendre, c'est-à-dire d'expliciter le rôle de chacune dans un scénario d'analyse. Dès que l'on est capable d'interpréter ce rôle, le choix des variables à sélectionner ou à manipuler est considérablement facilité...

Développements complémentaires

La méthode de Johnson, si elle peut être utilisée de manière visuelle et intuitive, n'a pas été dépourvue d'appareil théorique pour autant. Il a fallu déterminer la notion de distance, ce qui a été particulièrement délicat dans le cas d'un arbre, pour deux raisons :
  • cette notion risque d'être modifiée à chaque niveau de profondeur de l'arbre
  • La notion de distance, facilement théorisable en mathématiques fondamentales, peut très bien être incompatible de la nature des données. Cette vérification est typique de l'analyse factorielle des dissimilarités
Généralement, la notion de distance est accompagnée des notions suivantes, à titre documentaire :
  • Similarité
  • Dissimilarité
  • Ultramétrique
  • Hiérarchie indicée
On retrouve cette méthode en data-mining sous les algorithmes suivants :
  • Bottom-up agglomerative clustering
  • UPGMA
On trouvera également la notion de "segmentation" en analyse de données, qui n'est autre qu'un schéma récursif descendant, produisant lui-aussi un arbre. Il introduit la notion d'Inertie interclasses et intraclasses et s'appuie sur la notion de "cluster plat" ou "flat cluster" que l'on retrouve en data-mining sous les algorithmes suivants :
  • K-means
  • K-medoids
  • KernelKmeans
  • K-star

La lexicométrie

La lexicométrie en analyse de données ne concerne que l'approche "bag of words".
Pour plus de précisions, voir la page consacrée à la lexicométrie.
Aspect développé par Benzécri : AFC appliquée sur la matrice lexicale, nuage de mots-clés et de textes.

L'échec patent de l'analyse de données

Une première approche : les difficultés du data mining
Un problème de publication : les algorithmes de l'école française ont une valeur objective, mais ne sont ni connus, ni débattus, ni même codés en librairies logicielles.
Les connaissances finissent sur étagère...Tentative d'ouverture vers le Japon, mais même problème.
Marquage et démarquage des connaissances et des avancées techniques, comme en football. Existant ou original ? "Benchmarking" ou analyse comparative
Une affaire politique ? Le cas des Random Markov Fields, les algorithmes d'optimisation des plans quinquennaux, les métiers de la finance et de l'actuariat
Le film "Pi" : financiers et kabbalistes bavent sur un mathématicien.
>> Accès à AnalyticBridge

Notes :


Retour à l'accueil
Remonter d'un niveau