Poulpy

vendredi 13 novembre 2009

La Wikipédia francophone est capitaliste et italienne

Je pense que vous l'avez compris : en ce moment, ma marotte, c'est de tripatouiller le graphe des catégories de WP. J'avance lentement et pas très efficacement, parce que je n'y connais pas grand chose et que je fais ça sur mon temps libre. Mais ça me donne des idées.

L'une de mes idées, c'est de trouver une méthode automatique de classification thématique d'une Wikipédia quelconque. Contrairement à ce qu'on pourrait imaginer, c'est nettement plus complexe qu'il n'y parait.

Comme vous le savez déjà bien entendu tous (car vous lisez attentivement ce blog et vous rappelez sans problème les posts d'il y a six mois), une équipe de chercheurs a déjà réalisé un calcul de cette couverture thématique pour en:. Leur idée, c'était de calculer le plus court chemin jusqu'à une catégorie de plus haut niveau. C'est assez pertinent, mais ça suppose :

qu'il existe des catégories de haut niveau exploitables ;
que les thèmes sont limités à ces catégories de haut niveau.

Le deuxième point est ennuyeux : l'une des caractéristiques de WP est justement de casser le modèle thématique habituel (limité à des trucs génériques comme "histoire", "géographie", etc.). Quant au premier point, il n'est tout simplement pas applicable sur fr:.

C'est là que je me dis : c'est pas grave, on doit bien pouvoir trouver d'autres méthodes. Par exemple, grâce à de savants calculs de centralité, il doit sûrement être possible de définir les catégories centrales. Et donc j'ai essayé. J'ai considéré le graphe comme non-orienté et j'ai calculé la distance moyenne de chaque catégorie à toutes les autres. Dans cette approche, Catégorie cachée est la plus centrale. En dehors des catégories de maintenance, il s'agit de Entreprise italienne. Mouais. Y'a encore du boulot, j'ai l'impression. Ou alors, cette approche est complètement hors de propos dès le début. Bref, fichtre.

En passant, si WP fait la différence entre les articles de l'espace encyclopédique et les autres, cette distinction n'est pas de mise en place pour les catégories, ce qui est assez ennuyeux pour mon approche : je n'ai aucun moyen générique pour dire automatiquement si une catégorie est encyclopédique ou pas. Forcément, ça limite.

PS : oui, je suis de retour. Non, ça ne va pas beaucoup mieux.

mercredi 11 novembre 2009

Non ?

Parfois, faut arrêter de se la jouer et admettre qu'on ne sert à rien, qu'on n'a pas les bonnes idées et que ce n'est pas parce qu'on fait un blog que ça y change quoi que ce soit.

Je reviendrai peut-être ici. Demain, dans un an, je ne sais pas.

mardi 3 novembre 2009

Argleton, Lancashire, United Kingdom

Argleton est une petite ville du Lancashire, un comté du nord-ouest de l'Angleterre. Elle est située à peu de distance de la côte, un peu au nord de Liverpool. Une petite bourgade comme on en trouve des tas dans le coin, en fait. Le problème, c'est qu'Argleton n'existe pas. Ou plutôt, elle n'est visible que sous la forme d'un toponyme sur Google Maps.

Le buzz commence à se répandre sur Internet depuis qu'un type du coin en a parlé sur son blog. Un résident du coin est d'ailleurs allé vérifier sur place : là où Google mentionne une localité, on ne trouve que des champs. L'affaire a été mentionnée dans le Sunday Telegraph et dans le Guardian.

L'une des explications les plus communes, c'est qu'il s'agit d'un piège à copieurs : les cartographes introduisent parfois des erreurs dans leurs cartes afin d'être en mesure de dire, sans ambiguïté, qu'on les leur a repompées. Souvent, ça prend la forme d'une petite rue inexistante. Le problème, en ces temps d'Internet généralisé, c'est que ce genre d'ajout a des effets indésirables. Actuellement, une recherche Google sur Argleton renvoit près de 20 000 résultats, parce que l'info s'est propagée. Mais avant cela, une telle recherche renvoyait plutôt une liste de résultats automatiquement générés : écoles à Argleton, maisons en vente à Argleton, jobs à Argleton, etc. Il y a sûrement une morale à l'histoire, mais je vous laisse trouver la vôtre.

Bon. Et le truc bien dans tout ça ? C'est :

qu'Open Street Maps ne reproduit pas l'erreur ;
et que en: a déjà un article.

lundi 2 novembre 2009

Serious Business

En ce moment, mon opinion de Wikipédia, c'est qu'elle se prend quand même beaucoup trop au sérieux.

jeudi 22 octobre 2009

Visualisation

En cherchant un peu, on trouve différents projets, différentes approches qui tentent de cerner les données de Wikipédia.

Wikirank fait la même chose que Grok : présenter l'évolution des consultations d'un article. Par contre, il peut afficher un, deux ou trois mois d'un coup. Sur 90 jours, on visualise bien l'évolution des demandes en fonction du jour de la semaine, comme ici. Par contre, c'est limité aux trois derniers mois. Et à en:.

Chez IBM, deux idées : visualiser l'historique d'édition d'un article de façon graphique ; mettre en évidence les habitudes d'un contributeur.

Ici, une tentative de représentation graphique des pages adjacentes à un article.

Et pour finir, ça ne concerne pas exactement Wikipédia, mais l'idée n'est pas mal du tout. L'université de technologie de Delft possède son propre wiki interne. Des chercheurs en ont tracé l'évolution de la structure au fil du temps. Et histoire de bien faire, ils ont mis ça sous forme d'une vidéo.

mardi 20 octobre 2009

Mange mon chiffre !

Pour rebondir sur mon précédent post (zboïng !), je me demandais ce qui serait vraiment intéressant de calculer, si on avait la puissance de traitement adéquate. Une idée que j'avais : reprendre les principes de cette étude permettant de classer les articles par thèmes généraux. Mais le faire pour toutes les langues. Et pour tout l'historique. Ça aurait de la gueule.

Et vous, chers lecteurs, vous avez des idées ?

dimanche 18 octobre 2009

Number crunching

Conformément à sa vision libertaire, Wikipédia ne se contente pas de se faire éditer le poil par tout le monde : elle met à disposition ses entrailles. Le contenu est ici, les consultations là. Pourtant, je n'ai pas l'impression de voir souvent passer des études sur le sujet. On dirait que le number crunching fait peur aux gens (c'est possible, si j'en crois cet article du NYT). Ou alors, personne ne sait que tout le bidule est en libre téléchargement.

La dernière livraison de fr: disponible en dolodage comprend 3 423 075 pages distinctes (dont 1 812 264 dans l'espace encyclopédique, redirections comprises). Elles possèdent 69 871 906 liens entre elles. C'est sûr que ça commence à faire lourd l'analyse de graphe. Et encore, là, je ne parle même pas de l'historique ou des consultations de pages (les stats de consultations sont disponibles sont la forme de fichiers zippés d'environ 60 Mo regroupant chacun une heure de temps, ainsi que plus de 5 millions de lignes). Je connais une socioloque qui aimerait bien analyser les liens entre contributeurs sur la base de leurs contributions sur les pages de discussion : c'est possible, mais va falloir se trouver un plus gros PC. En résumé : c'est du gros.

Bon, moi, j'ai pas la puissance de feu de Google, mais ça ne veut pas dire que je ne peux rien faire. Alors histoire de, j'ai regardé un peu les catégories de fr:. Il n'y en a que 124 778 dans mon dump, donc c'est jouable. Une fois évacuées les catégories concernant l'espace non-encyclopédique (un truc pas évident à définir : le logiciel ne fait pas la distinction entre catégories encyclopédiques et non-encyclopédique) et les inévitables catégories isolées, il reste un bloc d'environ 108 000 catégories. J'ai le plaisir de vous apprendre que le diamètre de son graphe est de 23 et son rayon de 12 (je suis parti du principe que le graphe n'est pas orienté, parce que sinon c'est nul ; c'est un blog ici, pas un papier soumis à peer review).

De toute évidence, une catégorie n'est pas reliée à toutes les autres par au plus six liens. Par contre, la distance moyenne entre deux catégories est d'à-peu-près 6,6. Au centre du graphe, on trouve les catégories relatives aux pays du monde (Catégorie par pays est la plus centrale). À la périphérie, on trouve les innombrables catégories relatives à la classification en biologie (Physarida est la plus excentrée). Voilà, merci de votre attention. J'espère avoir apporté quelque chose à la Connaissance.

Sinon, j'ai bien tenté de faire un joli graphique avec tout ça, mais les logiciels que j'ai eu sous la main ont la fâcheuse tendance à planter quand je leur fournis plus de 50 000 nœuds, et je n'ai pas les compétences pour en développer un ad hoc. C'est dommage, j'aime bien les jolis graphiques.