vendredi 13 novembre 2009

La Wikipédia francophone est capitaliste et italienne

Je pense que vous l'avez compris : en ce moment, ma marotte, c'est de tripatouiller le graphe des catégories de WP. J'avance lentement et pas très efficacement, parce que je n'y connais pas grand chose et que je fais ça sur mon temps libre. Mais ça me donne des idées.

L'une de mes idées, c'est de trouver une méthode automatique de classification thématique d'une Wikipédia quelconque. Contrairement à ce qu'on pourrait imaginer, c'est nettement plus complexe qu'il n'y parait.

Comme vous le savez déjà bien entendu tous (car vous lisez attentivement ce blog et vous rappelez sans problème les posts d'il y a six mois), une équipe de chercheurs a déjà réalisé un calcul de cette couverture thématique pour en:. Leur idée, c'était de calculer le plus court chemin jusqu'à une catégorie de plus haut niveau. C'est assez pertinent, mais ça suppose :
  • qu'il existe des catégories de haut niveau exploitables ;
  • que les thèmes sont limités à ces catégories de haut niveau.
Le deuxième point est ennuyeux : l'une des caractéristiques de WP est justement de casser le modèle thématique habituel (limité à des trucs génériques comme "histoire", "géographie", etc.). Quant au premier point, il n'est tout simplement pas applicable sur fr:.

C'est là que je me dis : c'est pas grave, on doit bien pouvoir trouver d'autres méthodes. Par exemple, grâce à de savants calculs de centralité, il doit sûrement être possible de définir les catégories centrales. Et donc j'ai essayé. J'ai considéré le graphe comme non-orienté et j'ai calculé la distance moyenne de chaque catégorie à toutes les autres. Dans cette approche, Catégorie cachée est la plus centrale. En dehors des catégories de maintenance, il s'agit de Entreprise italienne. Mouais. Y'a encore du boulot, j'ai l'impression. Ou alors, cette approche est complètement hors de propos dès le début. Bref, fichtre.

En passant, si WP fait la différence entre les articles de l'espace encyclopédique et les autres, cette distinction n'est pas de mise en place pour les catégories, ce qui est assez ennuyeux pour mon approche : je n'ai aucun moyen générique pour dire automatiquement si une catégorie est encyclopédique ou pas. Forcément, ça limite.

PS : oui, je suis de retour. Non, ça ne va pas beaucoup mieux.

3 commentaires:

Pymouss a dit…

En fait, ce n’est ni les francs-maçons, ni les scientologues, ni les juifs, ni Al-Qaida qui contrôle Wikipédia, mais Berlusconi. Non ?

Anonymous a dit…

Ouf, c'est cool que tu sois revenu.

Manoillon a dit…

"je n'ai aucun moyen générique pour dire automatiquement si une catégorie est encyclopédique ou pas" : il ne te reste plus qu'a créer et utiliser [[Catégorie:Catégorie encyclopédique]] ...

(ce n'est qu'à moitié une plaisanterie, hein)