dimanche 18 octobre 2009

Number crunching

Conformément à sa vision libertaire, Wikipédia ne se contente pas de se faire éditer le poil par tout le monde : elle met à disposition ses entrailles. Le contenu est ici, les consultations . Pourtant, je n'ai pas l'impression de voir souvent passer des études sur le sujet. On dirait que le number crunching fait peur aux gens (c'est possible, si j'en crois cet article du NYT). Ou alors, personne ne sait que tout le bidule est en libre téléchargement.

La dernière livraison de fr: disponible en dolodage comprend 3 423 075 pages distinctes (dont 1 812 264 dans l'espace encyclopédique, redirections comprises). Elles possèdent 69 871 906 liens entre elles. C'est sûr que ça commence à faire lourd l'analyse de graphe. Et encore, là, je ne parle même pas de l'historique ou des consultations de pages (les stats de consultations sont disponibles sont la forme de fichiers zippés d'environ 60 Mo regroupant chacun une heure de temps, ainsi que plus de 5 millions de lignes). Je connais une socioloque qui aimerait bien analyser les liens entre contributeurs sur la base de leurs contributions sur les pages de discussion : c'est possible, mais va falloir se trouver un plus gros PC. En résumé : c'est du gros.

Bon, moi, j'ai pas la puissance de feu de Google, mais ça ne veut pas dire que je ne peux rien faire. Alors histoire de, j'ai regardé un peu les catégories de fr:. Il n'y en a que 124 778 dans mon dump, donc c'est jouable. Une fois évacuées les catégories concernant l'espace non-encyclopédique (un truc pas évident à définir : le logiciel ne fait pas la distinction entre catégories encyclopédiques et non-encyclopédique) et les inévitables catégories isolées, il reste un bloc d'environ 108 000 catégories. J'ai le plaisir de vous apprendre que le diamètre de son graphe est de 23 et son rayon de 12 (je suis parti du principe que le graphe n'est pas orienté, parce que sinon c'est nul ; c'est un blog ici, pas un papier soumis à peer review).

De toute évidence, une catégorie n'est pas reliée à toutes les autres par au plus six liens. Par contre, la distance moyenne entre deux catégories est d'à-peu-près 6,6. Au centre du graphe, on trouve les catégories relatives aux pays du monde (Catégorie par pays est la plus centrale). À la périphérie, on trouve les innombrables catégories relatives à la classification en biologie (Physarida est la plus excentrée). Voilà, merci de votre attention. J'espère avoir apporté quelque chose à la Connaissance.

Sinon, j'ai bien tenté de faire un joli graphique avec tout ça, mais les logiciels que j'ai eu sous la main ont la fâcheuse tendance à planter quand je leur fournis plus de 50 000 nœuds, et je n'ai pas les compétences pour en développer un ad hoc. C'est dommage, j'aime bien les jolis graphiques.

1 commentaire:

nojhan a dit…

Je suis sûr qu'on pourrait trouver un petit financement pour t'acheter de quoi faire un serveur SMP virtuel ou louer du temps dans un centre de calcul... ou alors tu prends ton courage à deux mains et tu t'attelle carrément à faire un projet BOINC...