samedi 6 juillet 2013

Statistiques wikipédiennes II - Partie 2

Reprenons donc où nous nous étions arrêtés sur le précédent billet. Mais d'abord commençons par résumer les conclusions de celui-ci


  1.  Si de:  et fr: semblent suivre une trajectoire commune, elles ne sont pas exactement parallèles. Et non, contrairement à l'idée reçu, fr: ne rattrape pas de:, c'est même le contraire, l'écart se creuse : d'un minimum de 80 000 mi-2007, de: possède à présent 200 000 articles de plus. Même si l’écart semble s'être stabilisé depuis le début de l'année (2013)
    Croissance de fr: (en bas) et de: (en haut)[1]
  2. Pour creuser la question, nous avons étudié la croissance de wikipédia à partir d'un indice ad hoc, le temps nécessaire pour créer 10 000 articles. Et l'on s'est aperçu[2] de plusieurs choses : 
    • Dans un premier temps la croissance a été fulgurante, puis un peu moins. Puis la vitesse de création a fortement décru. À l'heure actuelle elle décroît toujours, mais plus lentement pour atteindre 26 JDA[3]
    • Comme des vulgaires lycéens qui ne se mettent à bosser à 2 mois du bac[4], les wikipédiens ne se mettent à bosser sérieusement (ici créer des articles) qu'aux seuils des nombres d'articles symboliques. Derrière y a plus personne.
    • Il y a un mystérieux creux des créations en septembre 2008, qu'aucune raison évident ne permet d'expliquer simplement.
Voilà, on s'était arrêté là. Et maintenant que faire ? embrayer directement sur la croissance de de: car pour savoir pourquoi l'écart se creuse, c'est aussi important de savoir si c'est parce que fr: ralenti ou de: qui accélère[5] comme c'était mon impression première ? Ou bien de résoudre le mystère de la Chambre jaune[6] du Creux de Septembre 2008™, comme c'était ma deuxième intention ?

Et bien finalement on va prendre la première option. Ça nous permettra de voir si ce creux n'existe que sur fr:, auquel cas il faudra privilégier les hypothèse internes à fr:, mais aussi purement françaises/francophones, où s'il existe ailleurs, auquel il faudra se focaliser sur des causes externes, et mondiales.

Croissance de de:

 Commençons donc, comme pour fr:, par la croissance en JDA depuis 2003 :



 Donc on observe grosso-mode la même courbe : une première phase (mi-2003 - début 2004) de croissance exponentielle, puis ce qui semble être une phase de stagnation. Encore une fois zoomons sur la deuxième partie qui est écrasée par l'échelle de la première :

On voit que la courbe dans la période « stable » est un chouïa moins chaotique que sur fr:, même si elle ressemble aussi à une courbe de bruit. Encore une fois rajoutons de la régression linéaire[7] :


 On observe encore une fois une séparation en trois phases :
  • Une croissance modérément rapide (début 2004 - troisième trimestre 2006) soit à peu près 2 ans comme sur fr:
  • une phase de décroissance rapide (troisième trimestre 2006 - troisième trimestre 2007), encore une fois, un an, comme sur fr:
  • et depuis, et c'est là qu'est la différence avec fr:, une croissance lente, mais réelle, là ou sur fr; on est en décroissance lente ; de: en est à ~21 JDA[8] et tend vers 20, sur fr: on en est à 26. On observe aussi quelques pics, mais beaucoup moins marqués que sur fr: (en tout cas avant fin 2012) ; il y a bien un petit piquounet à 17 JDA en janvier 2012, un autre un peu plus marqué janvier 2012 (15 JDA) et un double, bien plus important fin 2012, suivi d'un énorme contre-coup depuis début 2013.
On remarque que ces pics sont en général en fin d'année et suivi d'un creux important, comme si les germanophones cravachaient en fin d'année pour tenter d'améliorer le bilan quelques jours avec la période des comptes, et puis qu'après le fêtes, ils cuvaient lentement leur gueule de bois[9]. Est-ce ça ou, comme sur fr:, ces pics correspondent à des seuils symboliques en nombre d'articles, comme de vulgaires francophones ? Traçons donc le graphe pour le savoir !
Et là, sous nos yeux ébahis, l'horrible vérité : le premier piquounet de 2010 correspond bien au MYON™ allemand[10]. Le dernier double-pic semble correspondre au MYON'EDMI™ ; il est d'ailleurs au moins aussi important en intensité, mais plus long en durée que celui du MYON™ de fr:. Bref, il semblerait que nos collègues germanophone aient subi notre mauvaise influence.
Par contre, le pic intermédiaire, semble correspondre à 1,35M. Comme chiffre symbolique ont fait mieux... Mais je ne vois pas trop à quoi d'autre ça pourrait correspondre. La peur de se faire dépasser par une autre wikipédia, au hasard une version en une langue ressemblant à de l'allemand en plus moche[11], et qui ferait tourner des bots pour créer des articles ? Pas vraiment d'après les statistiques officielles[12], à cette date, si nl: faisait déjà périodiquement tourner des bots, elle avait plus de 400k articles de retard... Une sorte de wikiconcours de création en allemand ? Je ne suis pas assez connaisseur de de: pour le dire.

Intéressons-nous aussi aux creux[13] dans les contributions. Outre le contre-coup monstrueux après le MYON'EDMI™ que de: vit en ce moment-même, digne de notre gros creux de septembre 2008, on en observe un plus réduit en septembre-octobre 2011 (le pic de décembre/janvier après en serait-il juste le contre-coup ?) qui correspond pour le coup à un chiffre plus ou moins symbolique (1,3M), un troisième juin-juillet 2010, mais assez léger pour n'être qu'une fluctuation naturelle un peu plus forte, et un double, bien plus important
en septembre 2008 - tiens, tiens... - avec son petit frère début décembre. On peut aussi voir  un gros creux en décembre 2005, mais qui est plus dans la partie pré-rythme de croisière de de:.

Donc on peut résumer la situation de de: comme suit :
  • de: suit à peu près le même parcours que fr:[14], mais à l'inverse de cette dernière, sa moyenne en JDA globale est plus basse, et en décroissance (donc c'est mieux).
  • mis à part le gros (double) pic du MYON'EDMI™ de: possède peu de pics de contributions, en tout cas moins marqués que fr:
  • de: est en revanche plus sensibles à des de gros coups de mou, plus réguliers, et plus marques que fr:
  • Ces pics et ces creux semblent s’accélérer et se rapprocher, les deux dernières années n'étant qu'une succession de gros pics et gros creux, contrairement à fr: ou après le dernier pic des 1,2M, la situation tend à se stabiliser. À voir quand on atteindra nous aussi le MYON'EDMI™ ?
Enfin, pour ce qui  est de l'écart fr-de, on peut donc voir qu'il résulte d'une décroissance de fr:, couplée à une croissance (en tendance lourde) dans le même temps de de:. Et la stabilisation qu'on observe depuis début 2013 résulte elle de le décroissance forte et instantanée (durera-t-elle ? la croissance elle semble repartir au dernier mois, même si le taux est largement au dessus de la moyenne -27 pour 21).

 Le creux de septembre 2008™

Revenons à présent sur ce gros creux de septembre 2008. Pour l'expliquer plusieurs hypothèses m'ont été soumises, via twitter ou les commentaires de ce blog, en  plus de celles que j'avais proposées. On peut les résumer en
  • baisse de création pure et simple des contributeurs de fr;
  • baisse déclenchée par d'autre facteurs :
    • suppressions plus importantes ;
    • départs ou bannissements de gros contributeurs ;
    • focalisation sur d'autres, comme le Wikiconcours -ça tombe bien y'en a eu un juste en septembre 2008
  • des circonstances extérieures comme la démission du premier ministre japonais la rentrée, l'explosion finale de la crise des subprimes après la faillite de Leman Brothers (15 septembre 2008), ou les débuts de Knol.
L'unicité du ce creux (en tout cas sur fr:) tend à écarter les phénomènes périodiques (rentrée, Wikiconcours[15]). Comme on l'a vu dans ce billet, de: aussi a subit un creux en 2008, moins marqué, mais plus long. Ce détail supplémentaire tendrait donc à ne pas privilégier les hypothèses purement internes à fr:. Mais observons les en graphes cependant. Tout d'abord les suppressions :
Suppressions et suppressions nettes (suppressions-restaurations) par mois, de 2007 à 2009
On remarque qu'après l'habituel gros creux de l'été, période à laquelle les admins sont envoyés tous frais payés à Bora-Bora par la fondation[16], les suppressions reprennent en septembre 2008, mais pas à en crever le plafond, juste à un rythme normal comparable à ceux de 2007 et 2009. Donc ça n'est pas ça.
Voyons les créations des 25 plus gros créateurs de tous les temps[17], qui étaient déjà/encore là en 2008 :

Je n'ai mis que la somme, parce que 25 courbes sur le même graphe, c'était le bordel.  Donc on observe bien là un gros creux, de septembre à novembre 2008. Au passage, ça m'a permis de voir que deux de ces 25 plus gros contributeurs on arrêté de contribuer de façon plus ou moins définitive précisément à cette période : ADM, bloqué 245 jours mi-août, et Nono64, parti vers en: (un peu poussé vers la sortie) en juillet 2008. En regardant précisément les chiffres, on voit que 13 des 25 n'ont presque (2-3 articles) ou rien (pour 11 des ces 13-là) créé.
Faisons un peu de mathématiques basiques : en juillet 2008, le rythme de création était de 25 JDA, soit un peu plus de 12,4K/mois. On note donc que les 25 plus gros créateurs ont créé dans ce mois1900 articles soit 15% du total de création. En septembre le rythme était de 33 JDA, donc 9,1K/mois, et les 25+ ont créé 844 articles, soit plus que 9% du total. Une partie du creux leur incombe donc. On pourrait je pense extrapoler ce raisonnement aux 100 plus gros créateurs[18].

Alors pourquoi ?
Wikiconcours ? non  seuls de 3 ces 25 (Aristote2, Thierry Caro et Like tears in rain) y ont participé, et ils font parti de ceux dont les créations, si elles n'ont pas été à leur maximum restait dans la moyenne, basse (Aristote2, Thierry Caro) ou haute (Like tears in rain).
La réalité est sans doute plus complexe, avec non pas une cause unique, mais un mélange de celles citées plus haut : quelques départs de gros contributeurs, ajouté à cela l'absence d'activité pour certains d'entre eux en septembre 2008, que ce soit régulier (même effet en septembre 2009) ou pas (certains ont eu un maximum local en septembre 2009). Et sans doute une partie des contributeurs nouveaux/éphémères aussi bien qu'anciens plutôt sont allé tester Knol à cette période, délaissant Wikipédia. Cette hypothèse pourrait aussi expliquer aussi la chute sur de:.

edit: Rajout d'une conclusion sur la différence fr-de

Notes

[1] Oui, je sais, je recycle. Mais ça prouve que je suis écolo.
[2] Enfin surtout moi, quoi.
[3] Évidemment pour "Jours pour créer Dix-milles Articles" - qu'est-ce que Jeanne d'Arc aurait à foutre là dedans, hein ?
[4] Enfin sauf Jean-No, pour qui le bac c'est pas assez hype :p. Et moi qui n'ait commencé à réviser le bac qu'une semaine avant.
[5] Si de: avance et que fr: recule comment voulez-vous que ... ?
[6] Pour celui-là on sait en fait bien tous que l'auteur des tentatives d'assassinat est [SPOILER]Larsan le pseudo-policier - de son vrai nom Ballmeyer, époux caché de Mathilde - et que la première tentative en en fait eu lieu quelques heures avant la supposée tentative d'assassinat ce qui provoque un mystère insoluble, alors que cette pseudo-tentative n'est que le rêve reminiscent de Mathilde de la vraie tentative - d'où les cris, la scène de lutte restant de la vraie tentative - qui n'a jamais rien dit à personne à propos de celle-ci, et à même tenté de la cacher, et qui s'est ensuite blessée toute seule sur sa table de chevet.[/SPOILER] . Si vous n'avez pas lu les quatre lignes précédents, que vous n'avez pas lu le livre - ou que vous voulez le relire - et que l'envie vous en prend, le lien plus haut mène vers la version intégrale pas chère gratuite - moins cher je perds ma chemise, mais pas littéralement, puisque je ne mets que des t-shirts - sur Wikisource.
[7] Toujours de la vraie, de la tatouée.
[8] Toujours aucun rapport avec Jeanne d'Arc. 21 JDA → 10K/21 = 476 articles/jour, *30=14,3K articles/mois environ, et un peu moins de 174K articles/an.
[9] Toute ressemblance avec des faits existants est évidemment fortuite.
[10] Haha. On fait bien de nous vanter le sérieux allemand. Nan mais je vous jure.
[11] Je suis Rhadamante, et j'approuve ce message.

[12] Mais si, vous savez, le truc moche et lent, ou on comprend rien et qui a fait planter mon firefox 5 fois, à tel point j'ai dû aller consulter la page avec ie...
[13] Enfin aux pics sur le graphe quoi
[14] Les sale copieurs par anticipation !
[15] Celui-là était de plus un classique, donc moins « néfaste » en termes de création d'articles - moins que les Wikiconcours de désébauchage par exemple
[16] On me signale qu'il ne fallait pas le dire. Ah, zut.
[17] Je n'ai pas trouvé de statistique pour les plus gros contributeurs à un temps X - rien avoir avec les Bogdas - donc faute de grives...
[18] Et là j'ai vraiment la flemme d'aller farfouiller dans les statistiques des 100 plus gros.

mercredi 3 juillet 2013

Statistiques wikipédiennes II - Partie 1



Oyez, oyez, voici un nouveau billet de tonton Rhadamante sur des statistiques wikipédiennes.

En l’an de grâce 2013, observons deux papillons quelles sont les situations respectives, en terme de croissance du nombre d’articles, des Wikipédia francophone[1] et germanophone[2]. Pour quoi ces deux-là ? Et bien parce que. Non en fait de: à toujours été un point de comparaison pratique avec fr:, de par leur nombre respectif d’articles qui a toujours été relativement proche[3]  (1,6 M d’articles contre 1,4 à l’heure où j’écris ce billet) et que  les deux versions semblent suivre des trajectoires à peu près parallèles[4] comme nous l’allons monter tout à l’heure (ou pas).

Comparaison Fr-De


Commençons donc par un petit graphe[5] montrant les croissances respectives des deux Wikipédia précédemment citées, depuis 2003 :

Et là devant nos yeux ébahis, ce que j’ai déjà dit plus haut : de: (en haut pour les daltoniens) et fr: (logiquement en bas) ont grosso modo des trajectoires parallèles depuis ~2005, fr: ayant débuté sa croissance un peu plus tard et un peu plus poussivement. Mais en regardant de plus près, on s’aperçoit que ce n’est pas si parallèle que ça : ce n’est pas une illusion d’optique, entre 2007 et 2008 les courbes sont plus proches, et pire, elles divergent[6] dangereusement depuis au moins 2010. Pour s’en convaincre, il suffit de tracer la courbe de la différence du nombre d’articles entre de: et fr: 




On observe encore une fois le retard initial pris par fr: sur de: de 2003 à 2005, puis une stabilisation, et même une diminution assez rapide de la différence en nombre entre les deux versions linguistiques, avec un minimum de ~80 000 début septembre 2008. Puis la différence croît de nouveau, de façon inexorable, pour grimper et se stabiliser à 200 000 (début 2013-aujourd’hui), avec un petit « accident de parcours » au deuxième semestre 2010, dont je parlerai un peu plus tard. Donc contrairement au discours rassurant que je vois couramment, non, on ne rattrape pas de:, c’est même tout le contraire, l’écart se creuse.


Regardons à présent le taux de croissance des versions linguistiques respectives. Comme j’avais la flemme d’aller chercher le nombre de créations par jour/mois/années, j’ai simplement réutilisé les données que j’avais déjà récoltées, et créé un nouvelle indice ad hoc : le temps nécessaire pour créer 10 000 articles[7]. Ce nombre, contrairement au nombre de créations par durée de temps doit donc être idéalement le plus petit possible, et ainsi toutes les informations doivent être inversées (croissance->décroissance notamment).


Croissance de fr



Commençons tout bien tout honneur par fr:, toujours depuis 2003 :


On observe une phase de croissance[8] rapide entre 2003 et mi-2005, puis un genre de stabilisation depuis cette date jusqu’à maintenant. Mais regardons de plus près, parce que la première partie du graphe écrase un peu le reste :


Bon ça ressemble grossièrement à une courbe de bruit, et pour l’œil néophyte ça ne saute pas directement aux yeux qu’il y a trois périodes, rajoutons donc un peu de régression linéaire[9] :


On remarque donc trois périodes distinctes :
·          
  • Une période de croissance moyenne (mai 2005-mai 2007), période bénie où il fallait moins de 20 jours pour créer 10 000 articles, et même 9 en juillet 2006[10]
  •  Une période de décroissance forte (juin 2007-octobre 2008), qui se termine sur ce que j’appellerai le gros « creux de septembre 2008 », où il fallut 33 jours pour créer 10 000 articles[11]  
  • Et depuis une décroissance faible, qu'au départ j'avais même prise pour une stagnation. La moyenne augmente donc légèrement, de ~24 fin 2008 à ~26 jours à présent, pour créer 10 000 articles[12].  Avec quelques incidents de parcours, ou « pics de création »[13] : février 2009, octobre 2010, janvier 2012, et dans une moindre mesure mai 2011.
Arrêtons-nous un instant sur ces anomalies. Qu’est-ce à dire que ceci ? Pourquoi ces brusques pics de créations, qui semblent arriver comme une extrémité capillaire sur le consommé ? Et bien les wikipédiens francophones sont des petits sacripants. Non, cela ne correspond pas aux créations semi-automatisées du maître tentaculaire d’icelieu, que nenni, les principales (et à peu près les seules d’ailleurs) étant les légendaires crotons de mai 2009 dont on croit voir une légère trace sur le graphe précédent (et bah nan, c’est aut’chose). Non les « pics » correspondent aux seuils symboliques de nombres d’articles, dont le plus énAURME, celui d’octobre 2010, correspond bien évidemment au MYON !


Pour s’en convaincre il suffit de retracer le graphe précédent, non plus en fonction de la date, mais du nombre d’articles ; ça saute aux yeux :
 



On remarque ainsi que les gros pics sont parfaitement alignés sur des nombres symboliques : 750 000, 800 000, 1,1M, 1 ,2 M, et bien évidemment le MYON. Pour ce dernier, il s’agit, pour ceux qui n’avaient pas encore fait le lien, de l'anomalie sur le deuxième graphe[14] . Les wikipédiens francophones sont facétieux, hein ? 
Je ne m'explique par contre pas sérieusement le gros creux de septembre 2008. On pourrait se dire c'est septembre, les gens retournent bosser (bah justement), mais dans cas pourquoi seulement cette année, et pourquoi aussi fort ? On remarque qu'il est juste après les 700K et que quelques mois après il y a eu le pic des 750K. Je ne me souviens pas d'une grande purge stalinienne[15], ou de départs massifs à cette période. Il y a bien eu un accrochage presque habituel avec le CAr de cette époque, mais rien qui ne semble avoir eu un impact de cette envergure... Bref mystère et boules de gomme en ce qui me concerne.


Comme le billet et déjà long (et chargé) on verra dans le prochain si nos cousins teutons[16] sont aussi des petits plaisantins (SPOILER : non, mais en fait un peu quand même), la fantaisie et la légèreté ne sont-elles pas les premières notions auxquelles on pense quand il s'agit du monde germanique ?


Notes

[1] Et comme je suis faignant à partir de maintenant ça sera fr:, tout court.
[2] pareil, de:
[3] en : est désespérément inaccessiblement haut, les autres beaucoup plus bas, sauf depuis que ces voleurs tricheurs faquins de nl : ont décidé de gonfler leur nombre total à coup de bots. Et puis aussi, faut dire ce qui est, on aime toujours bien se comparer au modèle allemand.
[4] quoi que… et c’est aussi l’objet de ce billet.
[5]  J’espère lecteur que tu aimes les graphes, parce qu’il y en a une kyrielle dans ce billet.
[6] Et dix verges c’est…
[7] Au lieu de regarder la fréquence, j’ai regardé la période quoi.
[8] Donc décroissance sur le graphe, vu que tout est à l’envers, comme je l'ai déjà dit plus haut. Tu suis vraiment rien.
[9] De la vraie de vraie, avec marge d’erreur inférieure à 1%.
[10] Comme par hasard, le moment où j’ai commencé à contribuer intensivement à Wikipédia (faut bien occuper ses stages). Coïncidence ? Je ne crois pas.
[11] Comme par hasard la période où je folâtrais aux USA, et rentrais tranquillement en France pour la première fois, et donc ne passais pas beaucoup de temps sur Wp. Vous croyez toujours aux coïncidences ?
[12] Vu que je te sens trop feignasse pour faire une règle de trois, je te l'épargne : 26 jours pour écrire 10K articles, ça fait 10K/26 = 385 articles/jour, *30=11,5K articles/mois environ, soit un peu plus de 140K articles/an.
[13] Bien que l'appellation de « pic » soit ici plutôt inappropriée, puisqu'on observe des creux. C’est un peu comme en spectroscopie infrarouge, où on fait passer un rayonnement (infrarouge) à travers un échantillon qui en absorbera une partie – correspondant à ses niveaux d’énergie discrets, eux même correspondants à des fréquences spécifiques pour lesquelles les molécules tournent, vibrent et se tortillent dans tous les sens- et donc, on récupère ce qui est passé à travers et on compare avec le spectre initial pour voir ce qui n’a pas été absorbé. Du coup on n’observe pas des pics, mais des bandes d’absorption, que tous les newbies appellent des « pics », alors qu’ils sont en creux. Ah les gros nazes. Mais je m’égare (et pas seulement Bright Wilson Jr.).
[14] Mais si, souviens-toi, celui sur la différence du nombre d’articles entre de: et fr:, en fonction de la date. Fais un effort aussi.
[15] y a bien eu les accrochages/blocages -non définitifs - d'Aliesin, Ceedjee et El, mais bon...
[16] et autrichiens et bourbines suisse-allemands