X-Account-Key: account4 X-UIDL: 1239703099.M597734P10908.mda50,W=9080 X-Mozilla-Status: 0011 X-Mozilla-Status2: 00000000 Return-Path: Received: from mta-gw1.infomaniak.ch (mta-gw1.infomaniak.ch [84.16.68.86]) by mda50.infomaniak.ch (8.14.2/8.14.2) with ESMTP id n3E9wJAX010906 for ; Tue, 14 Apr 2009 11:58:19 +0200 Received: from out3.laposte.net (out4.laposte.net [193.251.214.121]) by mta-gw1.infomaniak.ch (8.14.2/8.14.2) with ESMTP id n3E9wJEo030926 for ; Tue, 14 Apr 2009 11:58:19 +0200 Received: from meplus.info (localhost [127.0.0.1]) by mwinf8307.laposte.net (SMTP Server) with ESMTP id A5AD4700008C for ; Tue, 14 Apr 2009 11:58:17 +0200 (CEST) Received: from [192.168.2.2] (unknown [61.4.105.43]) by mwinf8307.laposte.net (SMTP Server) with ESMTP id 27CB17000087 for ; Tue, 14 Apr 2009 11:58:15 +0200 (CEST) X-ME-UUID: 20090414095816163.27CB17000087@mwinf8307.laposte.net Subject: Re: Elaboration d'un moteur de correlation de donnees =?ISO-8859-1?Q?=E0?= partir de cluster grace a rapidminer From: =?ISO-8859-1?Q?A. Reply-To: A..@laposte.net To: Hiramash In-Reply-To: <49E1C553.1070306@hiramash.net> References: <49D5BAAB.1030702@n.org> <49D88EC7.2010201@hiramash.net> <50633.61.4.105.43.1239436185.squirrel@n.org> <49E1C553.1070306@hiramash.net> Content-Type: multipart/signed; micalg="pgp-sha1"; protocol="application/pgp-signature"; boundary="=-Qkp4A9+oehJ1Qumg1o9c" Date: Tue, 14 Apr 2009 17:58:12 +0800 Message-Id: <1239703092.3940.2.camel@A.> Mime-Version: 1.0 X-Mailer: Evolution 2.26.0 X-me-spamlevel: not-spam X-me-spamrating: 36.000000 X-me-spamcause: OK, (-100)(0000)gggruggvucftvghtrhhoucdtuddrvdekuddrheduucetggdotefuucfrrhhofhhilhgvmecuoehnohhnvgeqnecuuegrihhlohhuthemuceftddtnecugfhvvghrhghhihhtvgculddquddttddm X-Greylist: IP, sender and recipient auto-whitelisted, not delayed by milter-greylist-4.1.10 (mta-gw1.infomaniak.ch [84.16.68.125]); Tue, 14 Apr 2009 11:58:19 +0200 (CEST) X-Antivirus: Dr.Web (R) for Mail Servers on mta-spa5 host X-Antivirus-Code: 100000 X-Infomaniak-Spam: ham X-Spam-Score: -100 --=-Qkp4A9+oehJ1Qumg1o9c Content-Type: text/plain; charset="UTF-8" Content-Transfer-Encoding: quoted-printable Bonjour, Bien sur pas de probl=C3=A8me. A. Le dimanche 12 avril 2009 =C3=A0 12:41 +0200, Hiramash a =C3=A9crit : > Bonjour A., >=20 > Pas de probl=C3=A8me pour votre d=C3=A9cision. Moyennant votre anonymat,=20 > m'autorisez-vous =C3=A0 publier nos =C3=A9changes ? >=20 > Cordialement, > Hiramash. >=20 > A. a =C3=A9crit : >=20 > >Bonjour, > > > >Veuillez m'excuser pour le temps de r=C3=A9ponse, cependant il ce trouve= que > >je travaille depuis peu sur un nouveau sujet. Ainsi, bien que la partie > >analyse de donn=C3=A9es =C3=A0 partir de cluster m'int=C3=A9resse beauco= up, je dois la > >laisser de c=C3=B4t=C3=A9 pour le moment et me concentrer sur mon nouvea= u sujet. > >Je suis d=C3=A9sol=C3=A9 de vous avoir d=C3=A9rang=C3=A9 pour finalement= abandonner le sujet > >propos=C3=A9. > >En esp=C3=A9rant ne pas vous avoir fait perdre trop de votre temps. > > > >Cordialement, > > > >A. > > > > =20 > > > >>Bonjour A., > >> > >>Ok pour les pseudonymes, envoyez-moi =C3=A7a, je remplacerai partout a > >>posteriori avant publication. > >> > >>Bon, il faut que je me coltine le PDF, ne sachant pas comment > >>s'articulent les protocoles et outils employ=C3=A9s, mais du strict poi= nt de > >>vue data-mining, commencer par =C3=AAtre critique sur deux points : > >>- Le choix de la distance de cluster : Avec RapidMiner ou d'autres, > >>dressez un catalogue des distances disponibles. > >>- La conception de l'heuristique de "split/merge", car c'est la > >>sp=C3=A9cificit=C3=A9 de X-Means : L'algo d=C3=A9cide de splitter un cl= uster ou =C3=A0 > >>l'inverse d'en fusionner deux. Essayez d'en savoir plus sur la th=C3=A9= orie > >>de cette heuristique. > >> > >>Pour le premier point, il s'agit d'abord de se demander si c'est une > >>distance nominale ou num=C3=A9rique car vous avez l=C3=A0 deux familles= de > >>distance. Apr=C3=A8s, l'astuce que je prends souvent sous RapidMiner es= t de > >>choisir la distance qui "blanchit" le plus l'histogramme des distances= , > >>avec un op=C3=A9rateur "SimilarityMeasure". Une fois la distance choisi= e, > >>voyez son fonctionnement et interpr=C3=A9tez-l=C3=A0 de mani=C3=A8re cr= itique sur vos > >>donn=C3=A9es. Pour de petites fluctuations, vous en avez une sp=C3=A9ci= fique en > >>1/X, je ne sais plus laquelle...Si les fluctuations de distance sont > >>localis=C3=A9es ou faibles, il se peut qu'il faille passer =C3=A0 ce qu= e j'appelle > >>les "clusters d'images" pour traiter les cartes g=C3=A9ographiques et l= es > >>images : on raisonne alors en densit=C3=A9 et non plus directement en > >>distances. > >> > >>Apr=C3=A8s, choisissez le nombre de clusters, ce que fait automatiqueme= nt > >>X-Means avec plus ou moins de bonheur...Pour savoir si X-Means est > >>pertinent, faites-vous m=C3=AAme le travail de choix du nombre de clust= ers > >>plats et comparez =C3=A0 l'algo; sachez qu'il est non-d=C3=A9terministe= : si vous > >>le relancez, vous n'aurez pas forc=C3=A9ment les m=C3=AAmes r=C3=A9sult= ats. Pour > >>choisir le nombre de clusters, essayez de petites valeurs et v=C3=A9rif= iez > >>visuellement les "k-distances" : Le "N" qui "creuse" le plus la > >>"falaise" de la courbe des k-distances est le bon nombre de clusters. > >> > >>Triturez aussi le type de liens entre les clusters, simple ou multiple = : > >>Un cluster/dendogramme qui fait des "chaines de perles enfil=C3=A9es" e= t > >>discrimine mal les groupes peut =C3=AAtre nettement plus efficace en pa= ssant > >>de lien simple =C3=A0 lien multiple. Toutefois, si vous essayez les > >>dendogrammes, je vous les d=C3=A9conseille au del=C3=A0 de plus de 200/= 220 > >>individus =C3=A0 clusteriser. Utilisez plut=C3=B4t un sch=C3=A9ma r=C3= =A9cursif descendant > >>avec un K-Means, K-star ou LWL quitte =C3=A0 l'aplatir ensuite. Selon v= otre > >>probl=C3=A9matique, le cluster hi=C3=A9rarchique est probablement inuti= le. > >> > >>Faites plusieurs essais avec des distances diff=C3=A9rentes, et > >>transmettez-moi, si vous le voulez bien, vos donn=C3=A9es concernant le= s > >>individus et les matrices de distance : Selon leur t=C3=AAte, je vais v= ous > >>guider, tout se joue sur les clusters... > >> > >>Bien cordialement, > >> Hiramash. > >> > >>A. a =C3=A9crit : > >> > >> =20 > >> > >>>Bonjour, > >>> > >>>Je suis tomb=C3=A9 sur votre site apr=C3=A8s quelques recherches conce= rnant les > >>>techniques de data mining. Je suis actuellement en 2=C3=A8me ann=C3=A9= e de > >>>Master informatique et effectue mon stage de fin d'ann=C3=A9e. Je dois > >>>d=C3=A9velopper un logiciel de d=C3=A9tection de Botnet bas=C3=A9 sur = l'analyse de > >>>donn=C3=A9es r=C3=A9seau. Je me base sur les travaux de recherche effe= ctu=C3=A9s par > >>>Guofei Gu et notamment sur sa m=C3=A9thode d'analyse concernant son > >>>logiciel BotMiner. Celle-ci utilise des techniques de discr=C3=A9tisat= ion, > >>>de clustering (X-means) et de clustering hi=C3=A9rarchique (dendrogram= me). > >>>Je souhaiterai utiliser RapidMiner pour d'une part simuler =C3=A0 part= ir > >>>d'=C3=A9chantillons de donn=C3=A9es chaque =C3=A9tapes du data-mining = et une fois > >>>valid=C3=A9es, g=C3=A9n=C3=A9rer le code java pour d=C3=A9velopper le = moteur d'analyse de > >>>mon programme. > >>>Mes probl=C3=A8mes sont que mes connaissances dans les domaines des > >>>statistiques et du data mining sont tr=C3=A8s faibles et que je d=C3= =A9couvre > >>>seulement RapidMiner... Ainsi j'=C3=A9prouve quelques difficult=C3=A9s= dans le > >>>choix des composants et leurs param=C3=A9trages. > >>>Il apparait sur votre site que vous =C3=AAtes int=C3=A9ress=C3=A9 pour= donnez de > >>>petits coups de main dans ces domaines, c=E2=80=99est pourquoi je me p= ermets > >>>de vous contacter. Ainsi, si le sujet vous int=C3=A9resse et que le te= mps > >>>vous le permets, vote aide me serait particuli=C3=A8rement pr=C3=A9cie= use. > >>> > >>>Vous trouverez ci-joint l=E2=80=99article de Guofei Gu concernant BotM= iner. > >>> > >>>En vous remercient d=E2=80=99avance, > >>> > >>>Cordialement, > >>> > >>>A. > >>> > >>> =20 > >>> > > > > > > > > =20 > > --=-Qkp4A9+oehJ1Qumg1o9c Content-Type: application/pgp-signature; name="signature.asc" Content-Description: Ceci est une partie de message =?ISO-8859-1?Q?num=E9riquement?= =?ISO-8859-1?Q?_sign=E9e?= -----BEGIN PGP SIGNATURE----- Version: GnuPG v1.4.9 (GNU/Linux) iEYEABECAAYFAknkXjQACgkQ1w48CMtc2jIxywCgl5xcxtH7cG9pp2hjRK9XHsUV wPoAnR0Eiyb9kV3T5YblG9Ra5evwhex7 =LNC6 -----END PGP SIGNATURE----- --=-Qkp4A9+oehJ1Qumg1o9c--