Quand on parle de "N-grammes" en analyse textuelle, il faut préciser de quoi on parle. Est-ce au niveau du mot ou au niveau de la phrase ? Premier cas, on forme des N-grammes de lettres, deuxième cas on forme des N-grammes de mots.
Voici donc une adresse de visualisation des N-grammes de la phrase sortie des archives des ingénieurs de Google, ici :
http://www.chrisharrison.net/projects/trigramviz/index.html
Une référence : les petits papiers de Stanford, c'est autre chose que l'arrogance des docteurs français en statistiques !
Eurêka !
(c'est-à-dire que depuis que je suis admis dans l'anneau des mathématiques francophones, je fais du zèle LoL)
Il y a quelques temps, j'avais travaillé sur une problématique de "pronostics boursiers" : Quelle va être la valeur du NASDAQ dans cinq jours ? J'avais conçu un engin de calcul avec une précision diabolique, toutefois, s'il se trompait peu souvent, lorsqu'il se trompait c'était tout simplement catastrophique.
C'est un problème classique de suradaptation, que j'avais contourné par une segmentation à ma sauce. Cette étape était capable de signaler par le calcul "attention, je vais probablement me planter". J'avais donc là un filtre de queue de distribution : via certaines observations des phénomènes, j'étais capable de qualifier des situations anormales.
Or, il existe une théorie des queues de distribution que j'ai découverte il y a peu. Il s'agit de la loi de Pareto (économiste italien) qui stipule que 20% des gens possèdent 80% de la richesse nationale. En gros, c'est une théorie de l'inégalité qui caractérise la queue de distribution.
Du point de vue mathématique, le hasard inégalitaire de Pareto (les 20% de privilégiés) remplace le hasard égalitaire de la courbe en cloche, le "gros de la foule". Il y a mieux : les lois d'estimation de la population des privilégiés changent aussi.
Avant une élection, on fait des sondages sur des échantillons de population. Moyennant diverses contraintes, on dit qu'il y a une chance de se tromper entre les intentions de vote dans l'échantillons, et les mêmes intentions dans toute la population. Pour caractériser ce hasard, on fait appel à une courbe en cloche : l'erreur entre les conclusions de l'échantillon et les conclusions de la population est une erreur "de hasard égalitaire".
Maintenant, pour les événements rares, liés à une loi de Pareto, on a recours à une autre forme de hasard : On dit que la forme du hasard entre l'échantillon et la population (fluctuation stochastique) a la même forme que le hasard qui répartit les événements rares entre eux (distribution de probabilité). C'est un hasard auto-stable, caractérisé par une loi de Lévy.
Encore plus fort : Un développement théorique a été fait en théorie des ensembles avec des groupes, des dimensions, de la topologie, etc...L'interprétation géométrique de cet appareil a conduit à des "figures auto-stables", typiquement des fractals.
Reste à voir les applications concrètes de ces lois auto-stables, puisque tous les hasards utilisés en industrie sont gaussiens. En voici quelques ressources :
http://pi.314159.ru/longlist.htm
Où l'on découvre que la carte de Kohonen est un cas particulier d'automate cellulaire :
http://fr.wikipedia.org/wiki/Automates_cellulaires
J'ai découvert ça à l'occasion de la fonction "Explorateur CML" dans GIMP, qui permet de gérer les "Coupled Map Lattice" :
http://en.wikipedia.org/wiki/Coupled_map_lattice
J'explore ce que c'est et je vous en reparle...
A+,
Hiramash.
Peut-être un bon tuyau contre les attaques informatiques ?
ici : http://sectools.org/
L'INSNA, pour "International Network for Social Network Analysis", ici :
http://insna.org/
Similaire à "information aesthetics", voici "visual complexity"
Similaire aux "points bat", voici Autoit :
http://www.autoitscript.com/
..."j'ai le même à la maison" !!
Pour préparer un lot de données à un traitement mathématique, voici un très bon outil en Java et "open source" :
http://datacleaner.eobjects.org/
Plein d'astuces "futiles" sur ce blog, qui manquent cruellement quand on en a besoin.
http://www.technixupdate.com/
ici : http://www.wolframalpha.com/
possibilité de calculer des nombres complexes, éditeur de formules, quelques librairies par métier.
Il faut essayer les deux requêtes suivantes :
ici, pour écouter le son des maths (vous avez cru quoi ?) :
http://www.geocities.com/Vienna/9349/ :>
Ceux qui connaissent mon travail savent que j'ai trouvé là une bien belle adresse :
http://www.math-atlas.org/