Je me suis dit qu'il était possible de faire la même chose pour fr:. J'ai donc téléchargé une partie des dumps du 22 mai dernier ; ensuite, c'est du number crunching de bourrin.
Voici donc ce que j'obtiens au final :
- Géographie et lieux : 22%
- Culture et arts : 17%
- Personnalités : 15%
- Société et sciences sociales : 12%
- Techniques et sciences appliquées : 10%
- Histoire : 10%
- Sciences physiques et naturelles : 7%
- Mathématiques et logique : 3%
- Santé : 3%
- Religion et croyance : 1%
Le principal problème, sur fr:, consiste à trouver des catégories pertinentes auxquelles relier les articles. Sur en:, la catégorie « Main topic classifications » permet d'avoir de la matière. Sur fr:, la catégorie « Article » n'est tout simplement pas exploitable. Heureusement, sur le dump que j'ai utilisé, on trouve une catégorie « Classification thématique principale » ; cette dernière, bien qu'effacée depuis au prétexte que c'était le travail d'une seule personne et que ça faisait doublon, émulait plus ou moins bien la hiérarchie sommitale d'en:. Après, il faut regrouper les résultats de chacune des sous-catégories dans les grands thèmes donnés plus haut, ce qui se fait parfois un peu au chausse-pied (le papier des chercheurs mentionne le thème « Philosophie et pensée », mais je ne sais pas quoi y raccrocher ; il ferait à peine 1%, de toute façon).
Voilà, vous savez désormais que fr: est obsédée par la géographie. En l'absence d'une classification thématique facilement exploitable, le procédé atteint très vite ses limites, mais l'aperçu me semble intéressant.
3 commentaires:
Très intéressant.
Je me demande comment interpréter l'absence de catégorisation de haut niveau.
Et la prédominance de la géographie, effet de bord des bots sur les communes ? Là où sur en: c'est noyé dans la masse, fr: n'a pas suffisamment d'article pour les masquer ?
@Nojhan : les découpages administratifs permettent de mettre en place des catégorisations très efficaces dans le domaine de la géo.
Je voudrais poser une question: comment vous avez découvert le catégorie de dump, j'ai télécharger dump 09/12/2009, j'ai lancé SAX pour parcourir des balise de XML, je n'ai pas trouvé catégorie~-~
Enregistrer un commentaire