C'est le graphe des catégories en partant de la catégorie « Article ». Histoire de simplifier le tout, je n'ai pris en compte que les catégories encyclopédiques (pas les trucs des portails, les modèles, etc.) et j'ai laissé tomber les listes et les homonymies. Et chaque nœud n'est relié qu'au parent le plus important (sinon, c'est illisible).
Pendant qu'on y est, quelques trucs sur les catégories (uniquement les encyclopédiques) :
- En partant de la racine et en descendant de catégorie mère à catégorie fille, l'arbre ne comprend au maximum que 19 niveaux, les catégories les plus basses étant Micrognathozoa, Kinorhyncha, Acanthocéphale, Parenchymia, Priapulida, Loricifera et Sipuncula.
- De façon générale, il existe 157 160 catégories encyclopédiques. Ça en fait, du classement.
- Le rayon du graphe (en laissant de côté son orientation) est 12. La catégorie la plus centrale (et dont la moyenne des distances aux autres points est la plus faible) est « Ministre espagnol de la Présidence »
- Inversement, son diamètre est 22. La catégorie la plus périphérique est « Monument romain par pays ».
C'est tout pour aujourd'hui. Un de ces quatre, j'arriverai à générer un graphe qui ne soit pas que mignon, histoire que ça serve à autre chose qu'égayer mon blog.
11 commentaires:
hey, ya presque 10x moins de catégories que d'articles. C'est plutôt une bonne nouvelle
Et ça t'aurait étouffé de générer un SVG ? :p
J'ai généré un SVG, Alphos. Il fait 20 Mo et mesure 24000 pixels de large.
Sympa le rendu…
Tu l'as généré comment ce joli graphe ? Toujours avec Gephi & OpenOrd ?
T'inquiète Pouply. Si mon intuition romanesque est juste, on finira par mettre des types à temps plein dessus : http://wikitrekk.blogspot.com/2011/08/wiki-roman-feuilleton-260.html
Tient, on va voir si ce commentaire va être silencieusement supprimé...
Ton image est une représentation trompeuse de la réalité. Je ne vois même pas comment tu peux obtenir ce genre de résultat sans traffiquer les données.
Le problème du graph des catégories est en partie qu'il est cyclique ce qui n’apparaît pas du tout ici... par miracle?
Bonjour Kelson ! Comme tu es nouveau ici, tu as droit à un commentaire gratuit avant suppression. Par contre, tu ne t'imagines quand même pas que je vais te répondre, non ?
@Cynddl : C++. J'ai pris les catégories, trouvé le parent principal pour chacune d'elle (le parent de plus haut niveau dans l'arborescence, et le plus central) afin d'obtenir un arbre et j'ai pondu un algo de layout pour tracer le graphe. Il me manque encore à afficher les autres liens, mais je n'ai pas trouvé de solution pour l'instant (sauf à rendre le truc illisible).
@Alexander Doria : tout ceci est... étrange...
Question con: c'est qui le gros rond noir sur le côté ?
Ça fait un peu penser à une fractale de Mandelbrot... (http://fr.wikipedia.org/wiki/Ensemble_de_Mandelbrot) sans les couleurs... Je suppose que sur le svg tu dois pouvoir zoomer sur les cercles et retomber sur des schémas identiques non ?
Moi je veux plus de détails sur l'algo de placement :)
Sinon, tu retombes sur quoi pour les catégories de haut niveau ? Ya un niveau où on a des catégories similaires à celles de en.wp ?
Very cool work. Do you think that it would be possible to do same including categories in articles as last leaf node in the tree? (or would it be too big?)
And next question is how easy it would be to export created category data back to simple files?
eg:
----
/category/category/article1
/category/category/article2
----
My question is related to that I have played with an idea to do gource animation how parts of Wikipedia have evolved, but for that i have to convert article hierarcies to trees.
Enregistrer un commentaire