samedi 6 juillet 2013

Statistiques wikipédiennes II - Partie 2

Reprenons donc où nous nous étions arrêtés sur le précédent billet. Mais d'abord commençons par résumer les conclusions de celui-ci


  1.  Si de:  et fr: semblent suivre une trajectoire commune, elles ne sont pas exactement parallèles. Et non, contrairement à l'idée reçu, fr: ne rattrape pas de:, c'est même le contraire, l'écart se creuse : d'un minimum de 80 000 mi-2007, de: possède à présent 200 000 articles de plus. Même si l’écart semble s'être stabilisé depuis le début de l'année (2013)
    Croissance de fr: (en bas) et de: (en haut)[1]
  2. Pour creuser la question, nous avons étudié la croissance de wikipédia à partir d'un indice ad hoc, le temps nécessaire pour créer 10 000 articles. Et l'on s'est aperçu[2] de plusieurs choses : 
    • Dans un premier temps la croissance a été fulgurante, puis un peu moins. Puis la vitesse de création a fortement décru. À l'heure actuelle elle décroît toujours, mais plus lentement pour atteindre 26 JDA[3]
    • Comme des vulgaires lycéens qui ne se mettent à bosser à 2 mois du bac[4], les wikipédiens ne se mettent à bosser sérieusement (ici créer des articles) qu'aux seuils des nombres d'articles symboliques. Derrière y a plus personne.
    • Il y a un mystérieux creux des créations en septembre 2008, qu'aucune raison évident ne permet d'expliquer simplement.
Voilà, on s'était arrêté là. Et maintenant que faire ? embrayer directement sur la croissance de de: car pour savoir pourquoi l'écart se creuse, c'est aussi important de savoir si c'est parce que fr: ralenti ou de: qui accélère[5] comme c'était mon impression première ? Ou bien de résoudre le mystère de la Chambre jaune[6] du Creux de Septembre 2008™, comme c'était ma deuxième intention ?

Et bien finalement on va prendre la première option. Ça nous permettra de voir si ce creux n'existe que sur fr:, auquel cas il faudra privilégier les hypothèse internes à fr:, mais aussi purement françaises/francophones, où s'il existe ailleurs, auquel il faudra se focaliser sur des causes externes, et mondiales.

Croissance de de:

 Commençons donc, comme pour fr:, par la croissance en JDA depuis 2003 :



 Donc on observe grosso-mode la même courbe : une première phase (mi-2003 - début 2004) de croissance exponentielle, puis ce qui semble être une phase de stagnation. Encore une fois zoomons sur la deuxième partie qui est écrasée par l'échelle de la première :

On voit que la courbe dans la période « stable » est un chouïa moins chaotique que sur fr:, même si elle ressemble aussi à une courbe de bruit. Encore une fois rajoutons de la régression linéaire[7] :


 On observe encore une fois une séparation en trois phases :
  • Une croissance modérément rapide (début 2004 - troisième trimestre 2006) soit à peu près 2 ans comme sur fr:
  • une phase de décroissance rapide (troisième trimestre 2006 - troisième trimestre 2007), encore une fois, un an, comme sur fr:
  • et depuis, et c'est là qu'est la différence avec fr:, une croissance lente, mais réelle, là ou sur fr; on est en décroissance lente ; de: en est à ~21 JDA[8] et tend vers 20, sur fr: on en est à 26. On observe aussi quelques pics, mais beaucoup moins marqués que sur fr: (en tout cas avant fin 2012) ; il y a bien un petit piquounet à 17 JDA en janvier 2012, un autre un peu plus marqué janvier 2012 (15 JDA) et un double, bien plus important fin 2012, suivi d'un énorme contre-coup depuis début 2013.
On remarque que ces pics sont en général en fin d'année et suivi d'un creux important, comme si les germanophones cravachaient en fin d'année pour tenter d'améliorer le bilan quelques jours avec la période des comptes, et puis qu'après le fêtes, ils cuvaient lentement leur gueule de bois[9]. Est-ce ça ou, comme sur fr:, ces pics correspondent à des seuils symboliques en nombre d'articles, comme de vulgaires francophones ? Traçons donc le graphe pour le savoir !
Et là, sous nos yeux ébahis, l'horrible vérité : le premier piquounet de 2010 correspond bien au MYON™ allemand[10]. Le dernier double-pic semble correspondre au MYON'EDMI™ ; il est d'ailleurs au moins aussi important en intensité, mais plus long en durée que celui du MYON™ de fr:. Bref, il semblerait que nos collègues germanophone aient subi notre mauvaise influence.
Par contre, le pic intermédiaire, semble correspondre à 1,35M. Comme chiffre symbolique ont fait mieux... Mais je ne vois pas trop à quoi d'autre ça pourrait correspondre. La peur de se faire dépasser par une autre wikipédia, au hasard une version en une langue ressemblant à de l'allemand en plus moche[11], et qui ferait tourner des bots pour créer des articles ? Pas vraiment d'après les statistiques officielles[12], à cette date, si nl: faisait déjà périodiquement tourner des bots, elle avait plus de 400k articles de retard... Une sorte de wikiconcours de création en allemand ? Je ne suis pas assez connaisseur de de: pour le dire.

Intéressons-nous aussi aux creux[13] dans les contributions. Outre le contre-coup monstrueux après le MYON'EDMI™ que de: vit en ce moment-même, digne de notre gros creux de septembre 2008, on en observe un plus réduit en septembre-octobre 2011 (le pic de décembre/janvier après en serait-il juste le contre-coup ?) qui correspond pour le coup à un chiffre plus ou moins symbolique (1,3M), un troisième juin-juillet 2010, mais assez léger pour n'être qu'une fluctuation naturelle un peu plus forte, et un double, bien plus important
en septembre 2008 - tiens, tiens... - avec son petit frère début décembre. On peut aussi voir  un gros creux en décembre 2005, mais qui est plus dans la partie pré-rythme de croisière de de:.

Donc on peut résumer la situation de de: comme suit :
  • de: suit à peu près le même parcours que fr:[14], mais à l'inverse de cette dernière, sa moyenne en JDA globale est plus basse, et en décroissance (donc c'est mieux).
  • mis à part le gros (double) pic du MYON'EDMI™ de: possède peu de pics de contributions, en tout cas moins marqués que fr:
  • de: est en revanche plus sensibles à des de gros coups de mou, plus réguliers, et plus marques que fr:
  • Ces pics et ces creux semblent s’accélérer et se rapprocher, les deux dernières années n'étant qu'une succession de gros pics et gros creux, contrairement à fr: ou après le dernier pic des 1,2M, la situation tend à se stabiliser. À voir quand on atteindra nous aussi le MYON'EDMI™ ?
Enfin, pour ce qui  est de l'écart fr-de, on peut donc voir qu'il résulte d'une décroissance de fr:, couplée à une croissance (en tendance lourde) dans le même temps de de:. Et la stabilisation qu'on observe depuis début 2013 résulte elle de le décroissance forte et instantanée (durera-t-elle ? la croissance elle semble repartir au dernier mois, même si le taux est largement au dessus de la moyenne -27 pour 21).

 Le creux de septembre 2008™

Revenons à présent sur ce gros creux de septembre 2008. Pour l'expliquer plusieurs hypothèses m'ont été soumises, via twitter ou les commentaires de ce blog, en  plus de celles que j'avais proposées. On peut les résumer en
  • baisse de création pure et simple des contributeurs de fr;
  • baisse déclenchée par d'autre facteurs :
    • suppressions plus importantes ;
    • départs ou bannissements de gros contributeurs ;
    • focalisation sur d'autres, comme le Wikiconcours -ça tombe bien y'en a eu un juste en septembre 2008
  • des circonstances extérieures comme la démission du premier ministre japonais la rentrée, l'explosion finale de la crise des subprimes après la faillite de Leman Brothers (15 septembre 2008), ou les débuts de Knol.
L'unicité du ce creux (en tout cas sur fr:) tend à écarter les phénomènes périodiques (rentrée, Wikiconcours[15]). Comme on l'a vu dans ce billet, de: aussi a subit un creux en 2008, moins marqué, mais plus long. Ce détail supplémentaire tendrait donc à ne pas privilégier les hypothèses purement internes à fr:. Mais observons les en graphes cependant. Tout d'abord les suppressions :
Suppressions et suppressions nettes (suppressions-restaurations) par mois, de 2007 à 2009
On remarque qu'après l'habituel gros creux de l'été, période à laquelle les admins sont envoyés tous frais payés à Bora-Bora par la fondation[16], les suppressions reprennent en septembre 2008, mais pas à en crever le plafond, juste à un rythme normal comparable à ceux de 2007 et 2009. Donc ça n'est pas ça.
Voyons les créations des 25 plus gros créateurs de tous les temps[17], qui étaient déjà/encore là en 2008 :

Je n'ai mis que la somme, parce que 25 courbes sur le même graphe, c'était le bordel.  Donc on observe bien là un gros creux, de septembre à novembre 2008. Au passage, ça m'a permis de voir que deux de ces 25 plus gros contributeurs on arrêté de contribuer de façon plus ou moins définitive précisément à cette période : ADM, bloqué 245 jours mi-août, et Nono64, parti vers en: (un peu poussé vers la sortie) en juillet 2008. En regardant précisément les chiffres, on voit que 13 des 25 n'ont presque (2-3 articles) ou rien (pour 11 des ces 13-là) créé.
Faisons un peu de mathématiques basiques : en juillet 2008, le rythme de création était de 25 JDA, soit un peu plus de 12,4K/mois. On note donc que les 25 plus gros créateurs ont créé dans ce mois1900 articles soit 15% du total de création. En septembre le rythme était de 33 JDA, donc 9,1K/mois, et les 25+ ont créé 844 articles, soit plus que 9% du total. Une partie du creux leur incombe donc. On pourrait je pense extrapoler ce raisonnement aux 100 plus gros créateurs[18].

Alors pourquoi ?
Wikiconcours ? non  seuls de 3 ces 25 (Aristote2, Thierry Caro et Like tears in rain) y ont participé, et ils font parti de ceux dont les créations, si elles n'ont pas été à leur maximum restait dans la moyenne, basse (Aristote2, Thierry Caro) ou haute (Like tears in rain).
La réalité est sans doute plus complexe, avec non pas une cause unique, mais un mélange de celles citées plus haut : quelques départs de gros contributeurs, ajouté à cela l'absence d'activité pour certains d'entre eux en septembre 2008, que ce soit régulier (même effet en septembre 2009) ou pas (certains ont eu un maximum local en septembre 2009). Et sans doute une partie des contributeurs nouveaux/éphémères aussi bien qu'anciens plutôt sont allé tester Knol à cette période, délaissant Wikipédia. Cette hypothèse pourrait aussi expliquer aussi la chute sur de:.

edit: Rajout d'une conclusion sur la différence fr-de

Notes

[1] Oui, je sais, je recycle. Mais ça prouve que je suis écolo.
[2] Enfin surtout moi, quoi.
[3] Évidemment pour "Jours pour créer Dix-milles Articles" - qu'est-ce que Jeanne d'Arc aurait à foutre là dedans, hein ?
[4] Enfin sauf Jean-No, pour qui le bac c'est pas assez hype :p. Et moi qui n'ait commencé à réviser le bac qu'une semaine avant.
[5] Si de: avance et que fr: recule comment voulez-vous que ... ?
[6] Pour celui-là on sait en fait bien tous que l'auteur des tentatives d'assassinat est [SPOILER]Larsan le pseudo-policier - de son vrai nom Ballmeyer, époux caché de Mathilde - et que la première tentative en en fait eu lieu quelques heures avant la supposée tentative d'assassinat ce qui provoque un mystère insoluble, alors que cette pseudo-tentative n'est que le rêve reminiscent de Mathilde de la vraie tentative - d'où les cris, la scène de lutte restant de la vraie tentative - qui n'a jamais rien dit à personne à propos de celle-ci, et à même tenté de la cacher, et qui s'est ensuite blessée toute seule sur sa table de chevet.[/SPOILER] . Si vous n'avez pas lu les quatre lignes précédents, que vous n'avez pas lu le livre - ou que vous voulez le relire - et que l'envie vous en prend, le lien plus haut mène vers la version intégrale pas chère gratuite - moins cher je perds ma chemise, mais pas littéralement, puisque je ne mets que des t-shirts - sur Wikisource.
[7] Toujours de la vraie, de la tatouée.
[8] Toujours aucun rapport avec Jeanne d'Arc. 21 JDA → 10K/21 = 476 articles/jour, *30=14,3K articles/mois environ, et un peu moins de 174K articles/an.
[9] Toute ressemblance avec des faits existants est évidemment fortuite.
[10] Haha. On fait bien de nous vanter le sérieux allemand. Nan mais je vous jure.
[11] Je suis Rhadamante, et j'approuve ce message.

[12] Mais si, vous savez, le truc moche et lent, ou on comprend rien et qui a fait planter mon firefox 5 fois, à tel point j'ai dû aller consulter la page avec ie...
[13] Enfin aux pics sur le graphe quoi
[14] Les sale copieurs par anticipation !
[15] Celui-là était de plus un classique, donc moins « néfaste » en termes de création d'articles - moins que les Wikiconcours de désébauchage par exemple
[16] On me signale qu'il ne fallait pas le dire. Ah, zut.
[17] Je n'ai pas trouvé de statistique pour les plus gros contributeurs à un temps X - rien avoir avec les Bogdas - donc faute de grives...
[18] Et là j'ai vraiment la flemme d'aller farfouiller dans les statistiques des 100 plus gros.

1 commentaire:

Anonyme a dit…

Blog de ce con de Poulpy de raclure de merde