Je me suis dit qu'il était possible de faire la même chose pour fr:. J'ai donc téléchargé une partie des dumps du 22 mai dernier ; ensuite, c'est du number crunching de bourrin.
Voici donc ce que j'obtiens au final :
- Géographie et lieux : 22%
- Culture et arts : 17%
- Personnalités : 15%
- Société et sciences sociales : 12%
- Techniques et sciences appliquées : 10%
- Histoire : 10%
- Sciences physiques et naturelles : 7%
- Mathématiques et logique : 3%
- Santé : 3%
- Religion et croyance : 1%
Le principal problème, sur fr:, consiste à trouver des catégories pertinentes auxquelles relier les articles. Sur en:, la catégorie « Main topic classifications » permet d'avoir de la matière. Sur fr:, la catégorie « Article » n'est tout simplement pas exploitable. Heureusement, sur le dump que j'ai utilisé, on trouve une catégorie « Classification thématique principale » ; cette dernière, bien qu'effacée depuis au prétexte que c'était le travail d'une seule personne et que ça faisait doublon, émulait plus ou moins bien la hiérarchie sommitale d'en:. Après, il faut regrouper les résultats de chacune des sous-catégories dans les grands thèmes donnés plus haut, ce qui se fait parfois un peu au chausse-pied (le papier des chercheurs mentionne le thème « Philosophie et pensée », mais je ne sais pas quoi y raccrocher ; il ferait à peine 1%, de toute façon).
Voilà, vous savez désormais que fr: est obsédée par la géographie. En l'absence d'une classification thématique facilement exploitable, le procédé atteint très vite ses limites, mais l'aperçu me semble intéressant.
Très intéressant.
RépondreSupprimerJe me demande comment interpréter l'absence de catégorisation de haut niveau.
Et la prédominance de la géographie, effet de bord des bots sur les communes ? Là où sur en: c'est noyé dans la masse, fr: n'a pas suffisamment d'article pour les masquer ?
@Nojhan : les découpages administratifs permettent de mettre en place des catégorisations très efficaces dans le domaine de la géo.
RépondreSupprimerJe voudrais poser une question: comment vous avez découvert le catégorie de dump, j'ai télécharger dump 09/12/2009, j'ai lancé SAX pour parcourir des balise de XML, je n'ai pas trouvé catégorie~-~
RépondreSupprimer