jeudi 11 août 2011

Catégories

De temps à autre, je télécharge la base de données de Wikipédia, histoire de produire des statistiques pour ce blog (ou pour mon amusement personnel). Cette fois-ci, j'ai récupéré l'arborescence des catégories du projet francophone. Une fois les données nettoyées (j'ai enlevé les catégories dédiées à la maintenance du projet, par exemple), j'ai créé un graphe (un nœud = une catégorie ; un arc = un couple de catégories mère/fille) que j'ai donné à manger à Gephi. Puis j'ai lancé le moteur de layout OpenOrd pour mettre un peu d'ordre dans ces 158 540 catégories et leurs 339 418 liens.

Voici le dessin de ce que ça m'a pondu :



Je n'ai aucune idée de ce que ça représente vraiment, mais c'est plutôt chouette, non ?

6 commentaires:

Arkanosis a dit…

J'y vois un magma infâme et complètement déstructuré.

Ne prends pas ça comme une remise en cause de tes talents d'artiste : dans mon esprit ça reflète exactement la façon dont je perçois l'organisation des catégories de la Wikipédia francophone. Tu es très fort.

P. Lechien a dit…

La bonne idée serait de faire pareil pour les wikis de même taille (de, it, pl, es), et voir si le dessein ressemble un peu vaguement.

Si oui, cool. Si non, tu pourras conclure que les catégorisation sont totalement arbitraires.

Ca te prendrait du temps?

P. Lechien a dit…

@Arkanosis: je vois trois ensembles de taille différente et séparés par un Y inversé. Je serai curieux de savoir si chacun a une thématique précise.

Julien a dit…

Tout le monde voit des composantes k-vaguement-connexes dans le graphe (ainsi qu'un espece de peripherique semi-circulaire). Est-ce que c'est possible de regenerer le truc-machin en retirant les categories de premier niveau (les trucs juste en dessous de la racine) pour voir si ca pete un peu plus le graphe. T'as mis quel coeff de edge-cutting ds OpenOrd ? Le calcul t'a pris combien de temps ?

Poulpy a dit…

@Arkanosis : ce n'est pas un magma infâme du tout. Il y a une très grande cohérence dans les catégories, mais elle est difficile à représenter graphiquement.

@P. Lechien : c'est possible, mais il faudrait que j'automatise le process avant.

@Julien : je t'ai pris au mot et j'ai regénéré le graphe. Il serait intéressant de vraiment trouver les composantes k-connexes, sinon. Et pour l'edge-cutting d'OpenOrd, 0.8. Pour le temps, je ne sais plus, j'ai laissé tourner ça pendant que je bossais.

iluvalar a dit…

« Je n'ai aucune idée de ce que ça représente vraiment »

C'est facile. On vois au centre un peu à droit les sciences et les concentration de bases (littérature, arts, ...). C'est l'endroit qui devrait être le mieux couvert (per NPOV) avec les truc d'importance élevés. Du côté gauche on peut voir le pavillon "en france". Totallement à l'écart et totallement disproportionné. En haut à droite, on vois les effort de Darkoneko sur les trucs en trait au japon. Perdu dans le reste de l'orienté En bas, on voit la "tranché" fameuse pour ses guerres. Dont à droite le bastion des religion avec comme cinq tours (de droite à gauche) l'athéisme, le judaisme (et le négationnisme), la trinité chrétienne, l'islam et finalement l'hindouisme. L'autre petite île plus bas, c'est les science humaines. On y voit très bien la côte des philosophe déporté de l'ile des religions et en même temps on vois aussi la science du continent principal qui tente de dresser une frontière.

voilà !