mercredi 3 juillet 2013

Statistiques wikipédiennes II - Partie 1



Oyez, oyez, voici un nouveau billet de tonton Rhadamante sur des statistiques wikipédiennes.

En l’an de grâce 2013, observons deux papillons quelles sont les situations respectives, en terme de croissance du nombre d’articles, des Wikipédia francophone[1] et germanophone[2]. Pour quoi ces deux-là ? Et bien parce que. Non en fait de: à toujours été un point de comparaison pratique avec fr:, de par leur nombre respectif d’articles qui a toujours été relativement proche[3]  (1,6 M d’articles contre 1,4 à l’heure où j’écris ce billet) et que  les deux versions semblent suivre des trajectoires à peu près parallèles[4] comme nous l’allons monter tout à l’heure (ou pas).

Comparaison Fr-De


Commençons donc par un petit graphe[5] montrant les croissances respectives des deux Wikipédia précédemment citées, depuis 2003 :

Et là devant nos yeux ébahis, ce que j’ai déjà dit plus haut : de: (en haut pour les daltoniens) et fr: (logiquement en bas) ont grosso modo des trajectoires parallèles depuis ~2005, fr: ayant débuté sa croissance un peu plus tard et un peu plus poussivement. Mais en regardant de plus près, on s’aperçoit que ce n’est pas si parallèle que ça : ce n’est pas une illusion d’optique, entre 2007 et 2008 les courbes sont plus proches, et pire, elles divergent[6] dangereusement depuis au moins 2010. Pour s’en convaincre, il suffit de tracer la courbe de la différence du nombre d’articles entre de: et fr: 




On observe encore une fois le retard initial pris par fr: sur de: de 2003 à 2005, puis une stabilisation, et même une diminution assez rapide de la différence en nombre entre les deux versions linguistiques, avec un minimum de ~80 000 début septembre 2008. Puis la différence croît de nouveau, de façon inexorable, pour grimper et se stabiliser à 200 000 (début 2013-aujourd’hui), avec un petit « accident de parcours » au deuxième semestre 2010, dont je parlerai un peu plus tard. Donc contrairement au discours rassurant que je vois couramment, non, on ne rattrape pas de:, c’est même tout le contraire, l’écart se creuse.


Regardons à présent le taux de croissance des versions linguistiques respectives. Comme j’avais la flemme d’aller chercher le nombre de créations par jour/mois/années, j’ai simplement réutilisé les données que j’avais déjà récoltées, et créé un nouvelle indice ad hoc : le temps nécessaire pour créer 10 000 articles[7]. Ce nombre, contrairement au nombre de créations par durée de temps doit donc être idéalement le plus petit possible, et ainsi toutes les informations doivent être inversées (croissance->décroissance notamment).


Croissance de fr



Commençons tout bien tout honneur par fr:, toujours depuis 2003 :


On observe une phase de croissance[8] rapide entre 2003 et mi-2005, puis un genre de stabilisation depuis cette date jusqu’à maintenant. Mais regardons de plus près, parce que la première partie du graphe écrase un peu le reste :


Bon ça ressemble grossièrement à une courbe de bruit, et pour l’œil néophyte ça ne saute pas directement aux yeux qu’il y a trois périodes, rajoutons donc un peu de régression linéaire[9] :


On remarque donc trois périodes distinctes :
·          
  • Une période de croissance moyenne (mai 2005-mai 2007), période bénie où il fallait moins de 20 jours pour créer 10 000 articles, et même 9 en juillet 2006[10]
  •  Une période de décroissance forte (juin 2007-octobre 2008), qui se termine sur ce que j’appellerai le gros « creux de septembre 2008 », où il fallut 33 jours pour créer 10 000 articles[11]  
  • Et depuis une décroissance faible, qu'au départ j'avais même prise pour une stagnation. La moyenne augmente donc légèrement, de ~24 fin 2008 à ~26 jours à présent, pour créer 10 000 articles[12].  Avec quelques incidents de parcours, ou « pics de création »[13] : février 2009, octobre 2010, janvier 2012, et dans une moindre mesure mai 2011.
Arrêtons-nous un instant sur ces anomalies. Qu’est-ce à dire que ceci ? Pourquoi ces brusques pics de créations, qui semblent arriver comme une extrémité capillaire sur le consommé ? Et bien les wikipédiens francophones sont des petits sacripants. Non, cela ne correspond pas aux créations semi-automatisées du maître tentaculaire d’icelieu, que nenni, les principales (et à peu près les seules d’ailleurs) étant les légendaires crotons de mai 2009 dont on croit voir une légère trace sur le graphe précédent (et bah nan, c’est aut’chose). Non les « pics » correspondent aux seuils symboliques de nombres d’articles, dont le plus énAURME, celui d’octobre 2010, correspond bien évidemment au MYON !


Pour s’en convaincre il suffit de retracer le graphe précédent, non plus en fonction de la date, mais du nombre d’articles ; ça saute aux yeux :
 



On remarque ainsi que les gros pics sont parfaitement alignés sur des nombres symboliques : 750 000, 800 000, 1,1M, 1 ,2 M, et bien évidemment le MYON. Pour ce dernier, il s’agit, pour ceux qui n’avaient pas encore fait le lien, de l'anomalie sur le deuxième graphe[14] . Les wikipédiens francophones sont facétieux, hein ? 
Je ne m'explique par contre pas sérieusement le gros creux de septembre 2008. On pourrait se dire c'est septembre, les gens retournent bosser (bah justement), mais dans cas pourquoi seulement cette année, et pourquoi aussi fort ? On remarque qu'il est juste après les 700K et que quelques mois après il y a eu le pic des 750K. Je ne me souviens pas d'une grande purge stalinienne[15], ou de départs massifs à cette période. Il y a bien eu un accrochage presque habituel avec le CAr de cette époque, mais rien qui ne semble avoir eu un impact de cette envergure... Bref mystère et boules de gomme en ce qui me concerne.


Comme le billet et déjà long (et chargé) on verra dans le prochain si nos cousins teutons[16] sont aussi des petits plaisantins (SPOILER : non, mais en fait un peu quand même), la fantaisie et la légèreté ne sont-elles pas les premières notions auxquelles on pense quand il s'agit du monde germanique ?


Notes

[1] Et comme je suis faignant à partir de maintenant ça sera fr:, tout court.
[2] pareil, de:
[3] en : est désespérément inaccessiblement haut, les autres beaucoup plus bas, sauf depuis que ces voleurs tricheurs faquins de nl : ont décidé de gonfler leur nombre total à coup de bots. Et puis aussi, faut dire ce qui est, on aime toujours bien se comparer au modèle allemand.
[4] quoi que… et c’est aussi l’objet de ce billet.
[5]  J’espère lecteur que tu aimes les graphes, parce qu’il y en a une kyrielle dans ce billet.
[6] Et dix verges c’est…
[7] Au lieu de regarder la fréquence, j’ai regardé la période quoi.
[8] Donc décroissance sur le graphe, vu que tout est à l’envers, comme je l'ai déjà dit plus haut. Tu suis vraiment rien.
[9] De la vraie de vraie, avec marge d’erreur inférieure à 1%.
[10] Comme par hasard, le moment où j’ai commencé à contribuer intensivement à Wikipédia (faut bien occuper ses stages). Coïncidence ? Je ne crois pas.
[11] Comme par hasard la période où je folâtrais aux USA, et rentrais tranquillement en France pour la première fois, et donc ne passais pas beaucoup de temps sur Wp. Vous croyez toujours aux coïncidences ?
[12] Vu que je te sens trop feignasse pour faire une règle de trois, je te l'épargne : 26 jours pour écrire 10K articles, ça fait 10K/26 = 385 articles/jour, *30=11,5K articles/mois environ, soit un peu plus de 140K articles/an.
[13] Bien que l'appellation de « pic » soit ici plutôt inappropriée, puisqu'on observe des creux. C’est un peu comme en spectroscopie infrarouge, où on fait passer un rayonnement (infrarouge) à travers un échantillon qui en absorbera une partie – correspondant à ses niveaux d’énergie discrets, eux même correspondants à des fréquences spécifiques pour lesquelles les molécules tournent, vibrent et se tortillent dans tous les sens- et donc, on récupère ce qui est passé à travers et on compare avec le spectre initial pour voir ce qui n’a pas été absorbé. Du coup on n’observe pas des pics, mais des bandes d’absorption, que tous les newbies appellent des « pics », alors qu’ils sont en creux. Ah les gros nazes. Mais je m’égare (et pas seulement Bright Wilson Jr.).
[14] Mais si, souviens-toi, celui sur la différence du nombre d’articles entre de: et fr:, en fonction de la date. Fais un effort aussi.
[15] y a bien eu les accrochages/blocages -non définitifs - d'Aliesin, Ceedjee et El, mais bon...
[16] et autrichiens et bourbines suisse-allemands




4 commentaires:

SammyDay a dit…

Pour 2008, il y a eu la crise glyptodon-ours des cavernes, mais surtout la création de Knol...

Rhadamante a dit…

@ SammyDay

Le coup de la guéguerre sur la mascotte me parait un peu léger en lui-même, mais pourquoi pas un amplificateur d'une tendance plus lourde (j'aurais bien dit que les vrais™ contributeurs ne se perdent pas dans ce genre de querelles futiles et stériles, mais 7 ans passé sur wp m'invitent à être plus prudent sur ce genre de remarques).

Pour Knol, ça ne me parait pas idiot. Ça cadrerait en partie avec une origine externe à wikipédia, comme je le soupçonne après avoir vu certains autres chiffres...

Rhadamante a dit…

@SammyDay

pff, au fait, la guéguerre ours/glypto c'était en 2007, pas en 2008. Si ne plus les gens viennent me soumettre des hypothèses grossièrement fausses, on va pas s'en sortir :D

Der Sodomizer a dit…

C'est vraiment un blog de connard de Poulpy de merde.