vendredi 4 avril 2008

Consultations faibles, mais nombreuses

Ce n'est pas un mystère, j'adore l'outil de stats. Par contre, on ne peut pas faire des demandes très complexes, comme de voir à la fois les consultations d'un article et de ses redirections. Par contre, il y a le lien vers les données brutes, ce qui peut satisfaire la curiosité des explorateurs. Bon, faut se farcir le téléchargement et le traitement, quand même : une heure, c'est 200 Mo de données.

Histoire de voir ce qui s'y passe, j'ai téléchargé les consultations pour le 3 mars, entre 12h et 13h.
Pour cette période, il y a eu presque 700 000 consultation de fr:. Près du quart ne concernait pas l'espace encyclopédique (pages d'aide, de Wikipédia, discussions, images, recherches, pages spéciales, etc.), ce qui laissait tout de même environ 530 000 consultations directes de celui-ci, pour 187 000 titres différents. Bon, ça vaut ce que ça vaut, parce que l'article le plus consulté serait un dénommé « _(Landes) » avec 5 517 hits, ce que je trouve assez curieux (c'est quoi, ce titre ?) ; en plus, il n'y a aucune distinction de fait entre les vrais articles, les redirections et même les demandes d'accès à des articles qui n'existent pas. Il n'y a donc pas véritablement eu demande de 187 000 articles distincts (ça serait génial, si 30% de l'encyclopédie était visionnée toutes les heures), mais c'est quand même pas mal conséquent.

Parmi toutes ces demandes, 114 500 sont uniques, c'est à dire que la demande n'a été effectuée qu'une fois pendant l'heure : ça représente 60% des demandes distinctes et 20% du trafic encyclopédique total. Au total, 50% du trafic concerne des titres demandés 5 fois ou moins pendant l'heure. 10%, entre 6 et 9 fois. 3%, des titres sont demandés plus de 50 fois (quand même).

Difficile de se faire une opinion précise sur des données aussi brutes et sur un intervalle de temps aussi réduit, mais il me semble, à première vue, avec mes lunettes de type pas super doué en statistiques, que Wikipédia, c'est un peu le concept de la longue traîne appliqué à l'encyclopédisme : la plupart des demandes pourraient ne concerner que des sujets très peu consultés au total.

Maintenant, faudrait que je télécharge l'intégralité des stats de mars pour vérifier mon idée, mais j'ai un peu peur de me taper 150 Go de données.

Aucun commentaire: