dimanche 5 mai 2013

Statistiques wikipédiennes



La nuit dernière, alors que je n’arrivais pas à m’endormir, je cherchais un sujet pour occuper mon esprit malade et le distraire des soucis habituels qui y tournaient en boucle depuis un certain temps[1] . Je repensais donc à des statistiques mathématiques un peu débiles[2] du genre si on voulait compter jusqu’à 1 milliard, il faudrait plus de 30 ans[3].
Puis je me suis dit que je pouvais mixer ça avec un de mes autres sujets de prédilection, Wikipédia. J’ai donc décidé de faire un rapide calcul mental du temps qu’il faudrait à une personne qui voudait lire tous les articles de la Wikipédia francophone (à la grosse louche). Comme le résultat m’a amusé, je me suis dit que je pouvais aussi amuser le monde [4], en le partageant via twitter le lendemain [5].
Puis j’ai réfléchi, je me suis dit que ce que je voulais dire tenait difficilement en 140 caractères, ou même en 280. Surtout que derrière j’ai pris conscience d’un autre paramètre dans mes statistiques, encore plus troublant. J’ai donc décidé de  faire plutôt un billet de blog, en demandant à emprunter un blog wikipédien. Voici donc mon rapide calcul, un peu plus affiné que ce que j’avais fait mentalement :
  • supposons donc qu’une personne veuille lire tous les articles francophones de Wikipédia  ;
  • supposons qu’elle passe 5 minutes par page  (ce qui est beaucoup pour certains articles, et très peu pour d’autres) ;
  •  l’encyclopédie francophone compte à l’heure où j’écris ce billet 1 383 534 articles ;
Cette personne devra donc passer 1 383 534* 5 minutes = 6 917 670 minutes, soit 115 294,5 heures, ou 4 804 jours, donc environ 13 ans et 2 mois.

  À ce niveau c’est déjà énAUrme ; oui parce que ces 13 ans et 2 mois, c’est en ne faisant que ça, c’est-à-dire en zappant les activités aussi futiles que dormir, boire, manger[6], avoir un boulot, forniquer, ou contribuer à Wikipédia.
  Mais c’est là qu’intervient un facteur que je n’avais pour l’instant pas pris en compte : la croissance de Wikipédia dans le même temps[7].

 Ordoncques,  la page« statistiques » de la Wikipédia francophone nous montre un graphe du nombre d’articles par an. On y voit que si la croissance à ses début était exponentielle, elle est, grosse merdo depuis 2007, linéaire, avec, à la (grosse) louche 150 000 articlés créés par an. Si on rapproche ça du calcul précédent, durant les 13 ans et 2 mois que le valeureux volontaire va passer à lire la wikipédia francophone[8], si on suppose un rythme de croissance équivalent à ces dernière années, 1 974 221 auront été créés[9].
Si on reprend le calcul précédent, il faudra donc au valeureux lecteur 18 ans et 9 mois supplémentaires pour lire les nouveaux articles créés. 18 ans et 9 mois durant lesquels X articles auront été créés[10]. On se retrouve avec un comportement de type exponentiel ; le résultat est donc qu'il est, dans ces conditions, physiquement impossible pour un humain de lire tous les articles de la Wikipédia francophone (et je ne parle même pas de l’anglophone).

En conclusion ? Eh bien on va tous mourir.  Et en plus on n’aura pas le temps de lire tous les articles de Wikipédia.

Rhadamante

[1] oui, moi quand j’ai une idée dans le crâne, bonne ou mauvaise,  elle tourne des heures et des heures, jusqu’à la concrétiser,  la remplacer par autre chose, ou avoir une grosse migraine. C’est pénible.
[2] c’est ça ou rêver que je tue Justin Bieber (ou tout autre artiste/personnalité pénible) à coup de figues molles – je vous avais prévenu que j’étais un esprit malade
[3] au rythme (rapide) d’un nombre par seconde, il faudrait 1 milliard de secondes, soit environ 277 777 heures ou 11 574 jours, soit 31,7 années. 
[4] oui je suis quelqu’un de bon et généreux, la preuve, je participe à Wikipédia
[5] oui j’essaie de planifier mes meilleurs tweets –et non, on voit que je n’en ai pas planifié beaucoup
[6] on peut avoir des réserves pas loin mais elles ne dureront pas 13 ans
[7] l’idée m’a traversé l’esprit, mais de toutes façons je ne pouvais pas la concrétiser, je ne connais pas les chiffres de wp par cœur – mon esprit malade a aussi ses limites
[8] s’il n’est pas mort d’ici là de faim, de soif, ou de privation de sommeil
[9] statique inquiétante en elle-même pour les compétiteurs de wp, avec ce chiffre, en plus de 13 ans à ce rythme fr : n’arrivera péniblement qu’à 3 357 000 articles, soit 80% du nombre actuel d’articles sur la Wikipedia anglophone 
[10] et ainsi de suite, mais bon, je pense que vous avez compris le principe...

8 commentaires:

SammyDay a dit…

En fait, ça veut dire simplement que les modifications sont faites à une vitesse plus grande que celle de la lecture.

Rhadamante a dit…

@SammyDay non c'est pire (enfin mieux) que ça. Les créations sont faites à une vitesse plus grande que celle de la lecture.

Pour le rapport modification/lecture c'est encore pire.

Anonyme a dit…

Bravo et merci ! Cela me fait vachement plaisir de savoir que je n'aurais jamais le temps de lire tous les articles sur le foot et les Pokémons ! ;o))
Musicaline

Naouak Nawak a dit…

Il y a une donnée qui n'est pas prise en compte par cet article. Même si actuellement le rythme de création est de 150 000 par an, le sera-t-il dans 10 ans.

A mon humble avis, au bout d'un moment, nous arriverons à un stade ou la quantité d'informations encyclopédique créée sera plus lente que la création d'article et donc la quantité d'articles créés par an se réduira.

Il dois être concevable d'arriver à un moment à un stade ou l'on aurait tout lu un jour je pense.

Rhadamante a dit…

@Naouak Nawak
J'ai effectivement fait l'hypothèse d'un croissance constante sur 13 ans de 150k article par an. C'est en effet discutable, mais à mon sens pas en terme de nombre de sujets. En l’occurrence, comme je le signale dans ma note 9, en 13 ans à ce rythme, on n’atteindra péniblement 80% du nombre d'article que compte la wikipédia anglophone aujourd'hui. Donc il est au minimum possible de traduire tous ces articles en français. L'inconnue est de savoir s'il y aura les contributeurs (ou en mode science-fiction les robots) capables de le faire.

Rhadamante a dit…

@Naouak Nawak

Toujours sur ce sujet, un collègue de la wikipédienne anglophone travaille sur le nombre total d’article que wikipédia pourrait avoir (https://en.wikipedia.org/wiki/User:Emijrp/All_human_knowledge).
Son estimation à l'heure actuelle, qui peut évoluer (à la hausse), est de 110 millions d'articles potentiels. En supposant que ces articles soient un jour créés, et en appliquant les même règles que précédemment, on arrive à une durée totale de 1046 années et 5 mois de lecture.

Auregann a dit…

Pas mal, mais partir d'une moyenne de temps de lecture quel que soit l'article est un peu hasardeux.

Je propose de faire d'abord quelques tests pour obtenir un temps de lecture en fonction du nombre d'octets. Ce sera déjà plus précis :)

Rhadamante a dit…

@Auregann

Certes, mais ça dépend de plein de paramètres : vitesse de lecture, longueur de l'article, difficulté du sujet (qui elle-même dépend de la qualification du lecteur), etc.

L'idée était de me donner un ordre de grandeur. De tête j'avais calculé environ : temps total= 1000 jours *(temps de lecteur d'un article en minutes).

5 minutes me semblait un bon compromis, entre les articles particulièrement succincts, mais nombreux, et les articles particulièrement longs et fournis mais relativement peu nombreux (ça doit être de l'ordre de quelques milliers).