jeudi 22 octobre 2009

Visualisation

En cherchant un peu, on trouve différents projets, différentes approches qui tentent de cerner les données de Wikipédia.

Wikirank fait la même chose que Grok : présenter l'évolution des consultations d'un article. Par contre, il peut afficher un, deux ou trois mois d'un coup. Sur 90 jours, on visualise bien l'évolution des demandes en fonction du jour de la semaine, comme ici. Par contre, c'est limité aux trois derniers mois. Et à en:.

Chez IBM, deux idées : visualiser l'historique d'édition d'un article de façon graphique ; mettre en évidence les habitudes d'un contributeur.

Ici, une tentative de représentation graphique des pages adjacentes à un article.

Et pour finir, ça ne concerne pas exactement Wikipédia, mais l'idée n'est pas mal du tout. L'université de technologie de Delft possède son propre wiki interne. Des chercheurs en ont tracé l'évolution de la structure au fil du temps. Et histoire de bien faire, ils ont mis ça sous forme d'une vidéo.




mardi 20 octobre 2009

Mange mon chiffre !

Pour rebondir sur mon précédent post (zboïng !), je me demandais ce qui serait vraiment intéressant de calculer, si on avait la puissance de traitement adéquate. Une idée que j'avais : reprendre les principes de cette étude permettant de classer les articles par thèmes généraux. Mais le faire pour toutes les langues. Et pour tout l'historique. Ça aurait de la gueule.

Et vous, chers lecteurs, vous avez des idées ?

dimanche 18 octobre 2009

Number crunching

Conformément à sa vision libertaire, Wikipédia ne se contente pas de se faire éditer le poil par tout le monde : elle met à disposition ses entrailles. Le contenu est ici, les consultations . Pourtant, je n'ai pas l'impression de voir souvent passer des études sur le sujet. On dirait que le number crunching fait peur aux gens (c'est possible, si j'en crois cet article du NYT). Ou alors, personne ne sait que tout le bidule est en libre téléchargement.

La dernière livraison de fr: disponible en dolodage comprend 3 423 075 pages distinctes (dont 1 812 264 dans l'espace encyclopédique, redirections comprises). Elles possèdent 69 871 906 liens entre elles. C'est sûr que ça commence à faire lourd l'analyse de graphe. Et encore, là, je ne parle même pas de l'historique ou des consultations de pages (les stats de consultations sont disponibles sont la forme de fichiers zippés d'environ 60 Mo regroupant chacun une heure de temps, ainsi que plus de 5 millions de lignes). Je connais une socioloque qui aimerait bien analyser les liens entre contributeurs sur la base de leurs contributions sur les pages de discussion : c'est possible, mais va falloir se trouver un plus gros PC. En résumé : c'est du gros.

Bon, moi, j'ai pas la puissance de feu de Google, mais ça ne veut pas dire que je ne peux rien faire. Alors histoire de, j'ai regardé un peu les catégories de fr:. Il n'y en a que 124 778 dans mon dump, donc c'est jouable. Une fois évacuées les catégories concernant l'espace non-encyclopédique (un truc pas évident à définir : le logiciel ne fait pas la distinction entre catégories encyclopédiques et non-encyclopédique) et les inévitables catégories isolées, il reste un bloc d'environ 108 000 catégories. J'ai le plaisir de vous apprendre que le diamètre de son graphe est de 23 et son rayon de 12 (je suis parti du principe que le graphe n'est pas orienté, parce que sinon c'est nul ; c'est un blog ici, pas un papier soumis à peer review).

De toute évidence, une catégorie n'est pas reliée à toutes les autres par au plus six liens. Par contre, la distance moyenne entre deux catégories est d'à-peu-près 6,6. Au centre du graphe, on trouve les catégories relatives aux pays du monde (Catégorie par pays est la plus centrale). À la périphérie, on trouve les innombrables catégories relatives à la classification en biologie (Physarida est la plus excentrée). Voilà, merci de votre attention. J'espère avoir apporté quelque chose à la Connaissance.

Sinon, j'ai bien tenté de faire un joli graphique avec tout ça, mais les logiciels que j'ai eu sous la main ont la fâcheuse tendance à planter quand je leur fournis plus de 50 000 nœuds, et je n'ai pas les compétences pour en développer un ad hoc. C'est dommage, j'aime bien les jolis graphiques.

vendredi 9 octobre 2009

Humour wikipédien

Je me demande si on peut rajouter la catégorie « Décès en 1882 » sur l'article « Dieu ».

jeudi 8 octobre 2009

Poulpisme du jour

La pensée poulpique du jour : si la qualité de Wikipédia vous préoccupe, si son évolution vous tarabuste, s'il vous semble important d'en assurer la maintenance, il y a de grandes chances que vous soyez à côté de la plaque.

mardi 6 octobre 2009

Non-création d'articles

J'aime bien créer des articles sur Wikipédia. Je n'ai pas vraiment de plan d'action particulier, mais les crée un peu au hasard, suivant l'inspiration du moment.

Tenez, voici mes cinq derniers articles :
  • OJ 287, un système binaire de deux trous noirs supermassifs en orbite proche, très proche ;
  • le Bibi Ka Maqbara, ou le Taj Mahal du pauvre : un mausolée qui ressemble fortement à ce dernier, construit par un prince moghol au XVIIe ;
  • UVB-76, une station de radio militaire russe émettant depuis 25 ans un bip toutes les secondes, sans qu'on sache pourquoi (il y a même un extrait audio) ;
  • la roue de Mayence, un symbole héraldique qu'on retrouve sur une palanquée d'armoirie dans la région de Mayence ;
  • l'église des Saints-Archanges, une église orthodoxe roumaine du 5e arrondissement de Paris.
Le dernier est une création complète. Les quatre autres sont des traductions partielles de l'anglais. En fait, j'utilise ma liste de suivi anglaise pour y stocker les sujets qui me passent par la tête, en attendant d'avoir envie de les traduire. Imaginez ça un peu comme les favoris de votre navigateur, mais adapté à Wikipédia. Je me demande si d'autres personnes font pareil.

Au final, je ne suis pas un contributeur qui crée beaucoup du contenu (je ne pense pas que la traduction soit vraiment une création de contenu). Je me contente de la mise en page, de la structure, de l'organisation... J'aime à penser que c'est important. Le jour où les robots seront capables de faire mon boulot, je risque de ne plus avoir grand chose à faire.