mercredi 28 janvier 2009

Organisation spontanée

Auprès du grand public, les catégories de Wikipédia ne rencontrent pas l'écho qu'elles mériteraient. Pas présentes au lancement du site, ajoutées ensuite comme une rustine sur un pneu crevé, elles sont pourtant, et peut-être plus que les articles eux-même, l'essence du projet.

Pourtant, il n'y a rien de plus fondamental et de plus structurant, dans une telle entreprise, que l'organisation des articles. Tenez, jetez un œil sur la taxonomie des connaissances reprises de l'Encyclopédie :


Le système figuré des connaissances humaines. Trois parties principales : mémoire (histoire), raison (philosophie) et imagination (poésie). L'arbre est simple, les branches se succèdent logiquement, sans bifurcation excessive, l'ensemble est agréable à l'œil. En découle une impression d'ordre, la certitude que l'Homme triomphe du chaos. Toute la connaissance est accessible, raisonnable, prête à être saisie dans sa globalité pour l'illumination du lecteur.

Bon, sur WP, c'est un poil plus compliqué. Afin de me la jouer un peu, voici un graphe des catégories relatives à la Géorgie (un pays choisi histoire de ne pas avoir une arborescence trop énorme) :


Chaque disque jaune représente une catégorie pouvant être atteinte en descendant l'arbre à partir de la catégorie initiale, en vert au centre ; le diamètre des disques est proportionnel au nombre d'articles présent dans la catégorie correspondante. Je n'ai pas représenté les bifurcations vers d'autres sujets, accessibles en remontant l'arbre, ça devient vite illisible. Les deux gros disques, en haut à droite, correspondent à des dynasties géorgiennes (catégories très peuplées). Vers la droite, on trouve les personnalités du pays et l'histoire, vers le haut à gauche le sport. La géographie est présente sur la gauche (l'excroissance, tout à gauche, est relative à la mer Noire). En tout, on compte plus d'un millier d'articles répartis sur une centaine de catégories ; il existe des ponts entre sous-catégories (celles de « Personnalité géorgienne » jouent d'ailleurs un rôle central), mais l'ensemble conserve une structure. Ce que le graphe ne met pas en évidence cependant, c'est l'imbrication de tout ce système à l'intérieur d'une organisation plus vaste : presque chacune de ces catégories est également liée à une sur-catégorie qui n'est pas spécifique à la Géorgie (« Histoire de la Géorgie » pointe également vers « Histoire nationale » et « Histoire du Caucase », par exemple). On est bien loin du schéma bien rangé de l'Encyclopédie ; ici, tout sujet n'est jamais très loin d'un autre.

Au total, fr: compte près de 100 000 catégories dans l'espace encyclopédique, provoquant une subdivision et une mise en relation des connaissances à un niveau probablement jamais atteint jusqu'alors, une hiérarchisation créée spontanément en classant les articles dans les catégories qui vont bien, sans vraiment réfléchir à la structure globale de l'organisation. Je ne sais même pas s'il existe à ce niveau un quelconque moyen de représenter cette structure. C'est ennuyeux, il y a matière à creuser.

10 commentaires:

Rhadamante a dit…

Il va surement te falloir des dimensions supplémentaires si tu veux vraiment tout représenter :)

Barraki a dit…

C'est effectivement fascinant.

Pas arborescente, les plus peuplées peuvent être les moins importantes, etc.

Sérieusement, ça mériterait des recherches universitaires. Du genre on télécharge une version figée de Wikipédia, puis on lance un logiciel chargé, dans un premier temps, de chercher tous les cycles.

Puis on regarde les cycles à tête reposée et on s'interroge sur leur bien-fondé.

Les biologistes admettent aujourd'hui que les espèces vivantes forment un graphe plus complexe qu'un arbre. Et les connaissances humaines ?

Popo le Chien a dit…

Je suppose qu'en 3D on aurait une wikipédia en forme de sphère, mais avec toutes les interconnections ça ressemblerait surtout à une pelote de laine.

Ce qui me surprend (ou pas), c'est que la catégorie mère Espace encyclopédique se divise dans des trucs pas toujours intuitifs:
[+] Art (29)
[+] Environnement (15) Mouais
[+] Expérience (5) ???
[+] Pensée (12) ????
[+] Sciences (16)
[+] Société (31)
[+] Spiritualité (23)
[+] Techniques et sciences appliquées

Popo le Chien a dit…

A part ça t'as utilisé quoi pour le rendu graphique de l'arborescence?

Poulpy a dit…

@Rhadamante : une chose est sûre : le graphe n'est pas planaire. :D Mais rien que pour trouver une représentation un peu compréhensible dans le cas restreint de la Géorgie, j'ai tatonné pendant un moment. Avec une centaine de milliers de nœuds, je n'ai aucune idée de ce qu'il est possible de produire.

@Barraki : sérieusement, il y aurait de quoi occuper à plein temps un spécialiste des graphes (si ça existe), surtout si on se met en tête d'étudier non seulement les connexions, mais leur évolution au fil du temps. Par contre, qu'est-ce que tu entends précisément par « cycles » ?

@Popo : pour la catégorie mère, je comptais en parler dans un post suivant, parce que je suis allé voir ça aussi, du coup, et qu'il y a des choses à dire dessus (sur « Expérience », je bloque aussi). Sinon, pour le rendu, j'ai utilisé yEd après avoir récupéré les données via l'API de MediaWiki et fait tourner des scripts Perl sur tout ça (merci Otourly, d'ailleurs).

Le concombre masqué a dit…

"...elles sont pourtant, et peut-être plus que les articles eux-même, l'essence du projet.

(...) il n'y a rien de plus fondamental et de plus structurant (...) que l'organisation des articles."

Quel enthousiasme, mazette quel enthousiasme !

"L'organisation des articles" à mon sens, c'est les wikiliens qui en constituent l'essentiel ; le graphe de la relation "contient un lien vers" c'est ça le schéma d'organisation, c'est le "on peut sauter de [[coq]] à [[âne]]" sans souci (ah ben non on peut pas, je viens de vérifier.... On dira de [[coq]] à [[espéranto]]).

Les catégories, c'est un gadget utile, mais ce n'est pas l'essentiel de la structuration (et c'est heureux car c'est quand même assez contraire au principe de "neutralité de point de vue" : ça privilégie forcément une taxonomie spécifique quand plusieurs existent, même si c'est fait de façon assez désordonnée pour que le manque de neutralité soit le plus souvent aléatoire et non au service d'un courant d'opinion).

Barraki a dit…

Par cycle, j'entends une catégorie A qui inclue une catégorie B qui inclue A.

ou A c B c C c D c E c F c A.

Car l'inclusion est un lien qui a un sens.

ça n'occuperait pas seulement un spécialiste des graphes. Il faudrait aussi des épistémologues pour chercher s'il y a quelque chose à en conclure.

Serein a dit…

Vu à 150 ans de distance par des historiens des mentalités, ça ferait un merveilleux sujet de recherche sur "la représentation du monde chez les francophones wikipédiens au début du XXe siècle".

Effectivement c'est fascinant. Tout un espace qui met "en dur" la représentation de la connaissance par un groupe hétéroclite.

Ce qui m'intéresserait, ça serait de voir s'il y a des "micro-mondes", des ensembles totalement détachés du reste de l'encyclopédie et vivant leur vie propre, avec catégories, sous-catégories etc sans interaction avec le reste de l'encyclopédie. Je suis sûre qu'il y en a (un peu comme les "zones grises" en géographie, en fait).

Sinon, noble cucurbitacée masqué, je ne suis pas trop d'accord avec toi : les catégories sont l'essence même de la structuration de Wikipédia. Bien sûr que ça n'est pas l'idéal de la NPOV, mais la possibilité de mettre plusieurs catégories à un article, et plusieurs sur-catégories à une catégorie, rendent la structuration plus acceptable.

Solveig a dit…

Poulpy, je t'aime.

nojhan a dit…

Le graphe des catégories de Wikipédia est effectivement « sans échelle » ([[en:Scale-free network]]) et organisé en « petit-monde » ([[en:small-world network]]) [1].

On apprend également que la structure du réseau sémantique produite par les catégories semble au moins aussi pertinente que celles produites par des projets ad-hoc (comme WordNet) [1].

Autre particularité intéressante, bien que le graphe héberge de multiples gros sous-graphes, aucun ensemble d'article n'est complètement isolé des autres : il est possible d'atteindre n'importe quoi depuis n'importe où [2].

En 2005, les 10 articles avec le plus « d'autorité » (c'est une métrique donné par un algorithme appelé HITS) étaient [2] : 1. United States, 2. France, 3. United Kingdom, 4. Germany, 5. Canada, 6. England, 7. Australia, 8. Japan, 9. Italy, 10. World War II

Les mêmes, avec l'algorithme PageRank [2] :
1. united states, 2. christianity, 3. roman catholic church, 4. 2004, 5. eastern
orthodox church, 6. jesus, 7. greek language, 8. russia, 9. bishop, 10. rome

À comparer avec les catégories racines...

Pour ceux qui veulent aller plus loin :
* http://scholar.google.com/scholar?q=wikipedia
* http://www.citeulike.org/group/382/library

[1] Analysis of the Wikipedia Category Graph for NLP Applications, T Zesch, I Gurevych - Proc of NAACL-HLT 2007 Workshop: TextGraphs, 2007
[2] Network Analysis for Wikipedia, F Bellomi, R Bonato - Proceedings of Wikimania 2005