vendredi 13 novembre 2009

La Wikipédia francophone est capitaliste et italienne

Je pense que vous l'avez compris : en ce moment, ma marotte, c'est de tripatouiller le graphe des catégories de WP. J'avance lentement et pas très efficacement, parce que je n'y connais pas grand chose et que je fais ça sur mon temps libre. Mais ça me donne des idées.

L'une de mes idées, c'est de trouver une méthode automatique de classification thématique d'une Wikipédia quelconque. Contrairement à ce qu'on pourrait imaginer, c'est nettement plus complexe qu'il n'y parait.

Comme vous le savez déjà bien entendu tous (car vous lisez attentivement ce blog et vous rappelez sans problème les posts d'il y a six mois), une équipe de chercheurs a déjà réalisé un calcul de cette couverture thématique pour en:. Leur idée, c'était de calculer le plus court chemin jusqu'à une catégorie de plus haut niveau. C'est assez pertinent, mais ça suppose :
  • qu'il existe des catégories de haut niveau exploitables ;
  • que les thèmes sont limités à ces catégories de haut niveau.
Le deuxième point est ennuyeux : l'une des caractéristiques de WP est justement de casser le modèle thématique habituel (limité à des trucs génériques comme "histoire", "géographie", etc.). Quant au premier point, il n'est tout simplement pas applicable sur fr:.

C'est là que je me dis : c'est pas grave, on doit bien pouvoir trouver d'autres méthodes. Par exemple, grâce à de savants calculs de centralité, il doit sûrement être possible de définir les catégories centrales. Et donc j'ai essayé. J'ai considéré le graphe comme non-orienté et j'ai calculé la distance moyenne de chaque catégorie à toutes les autres. Dans cette approche, Catégorie cachée est la plus centrale. En dehors des catégories de maintenance, il s'agit de Entreprise italienne. Mouais. Y'a encore du boulot, j'ai l'impression. Ou alors, cette approche est complètement hors de propos dès le début. Bref, fichtre.

En passant, si WP fait la différence entre les articles de l'espace encyclopédique et les autres, cette distinction n'est pas de mise en place pour les catégories, ce qui est assez ennuyeux pour mon approche : je n'ai aucun moyen générique pour dire automatiquement si une catégorie est encyclopédique ou pas. Forcément, ça limite.

PS : oui, je suis de retour. Non, ça ne va pas beaucoup mieux.

mercredi 11 novembre 2009

Non ?

Parfois, faut arrêter de se la jouer et admettre qu'on ne sert à rien, qu'on n'a pas les bonnes idées et que ce n'est pas parce qu'on fait un blog que ça y change quoi que ce soit.

Je reviendrai peut-être ici. Demain, dans un an, je ne sais pas.

mardi 3 novembre 2009

Argleton, Lancashire, United Kingdom

Argleton est une petite ville du Lancashire, un comté du nord-ouest de l'Angleterre. Elle est située à peu de distance de la côte, un peu au nord de Liverpool. Une petite bourgade comme on en trouve des tas dans le coin, en fait. Le problème, c'est qu'Argleton n'existe pas. Ou plutôt, elle n'est visible que sous la forme d'un toponyme sur Google Maps.

Le buzz commence à se répandre sur Internet depuis qu'un type du coin en a parlé sur son blog. Un résident du coin est d'ailleurs allé vérifier sur place : là où Google mentionne une localité, on ne trouve que des champs. L'affaire a été mentionnée dans le Sunday Telegraph et dans le Guardian.

L'une des explications les plus communes, c'est qu'il s'agit d'un piège à copieurs : les cartographes introduisent parfois des erreurs dans leurs cartes afin d'être en mesure de dire, sans ambiguïté, qu'on les leur a repompées. Souvent, ça prend la forme d'une petite rue inexistante. Le problème, en ces temps d'Internet généralisé, c'est que ce genre d'ajout a des effets indésirables. Actuellement, une recherche Google sur Argleton renvoit près de 20 000 résultats, parce que l'info s'est propagée. Mais avant cela, une telle recherche renvoyait plutôt une liste de résultats automatiquement générés : écoles à Argleton, maisons en vente à Argleton, jobs à Argleton, etc. Il y a sûrement une morale à l'histoire, mais je vous laisse trouver la vôtre.

Bon. Et le truc bien dans tout ça ? C'est :

lundi 2 novembre 2009

Serious Business

En ce moment, mon opinion de Wikipédia, c'est qu'elle se prend quand même beaucoup trop au sérieux.