vendredi 25 avril 2008

Réputation de merde

Il m'arrive de traîner en dehors de Wikipédia. Il m'arrive donc d'avoir des avis sur Wikipédia de la part de personnes totalement étrangères à Wikipédia. Pour ce que j'en sais, un avis qui revient souvent, c'est : « on ne peut rien contre ceux qui sont déjà dans la place et qui font la loi ».

C'est peut-être vrai, c'est peut-être faux, ça n'a aucune importance : si cette pensée se généralise, c'est la catastrophe assurée. Et ça ne sera pas en râlant que c'est pas vrai que ça changera. D'ailleurs, pour avoir tenté la chose, je serais plutôt d'accord avec cette vision du site.

vendredi 18 avril 2008

Pasta!

Tout se perd :

lundi 14 avril 2008

Infoboxes

Contribuer à Wikipédia, ça nécessite de se coltiner les modèles. Et se farcir les modèles, ça implique de tomber un jour ou l'autre sur les infoboxes. Là, y'a deux écoles : ceux qui sont pour et sont qui sont contre. Doit bien y avoir ceux qui s'en foutent, mais ils ne sont pas bien nombreux (ou alors ils se taisent).

À la base, les infoboxes, ça part d'une très bonne idée : synthétiser les données principales d'un article en haut à droite de la page, en respectant une mise en page constante. Et pour faire ça, rien de mieux qu'un modèle (au début, on faisait ça directement avec un gros tableau dans le corps de l'article, ce qui était abominable pour la lecture, l'édition et l'apparence d'un article à l'autre). Bon, maintenant, il faut dérouler quinze bornes de texte avant de tomber sur l'intro quand on édite l'article et il faut bien avouer que la syntaxe n'est pas forcément la plus heureuse, mais on n'a pas toujours tout ce qu'on veut dans la vie.

On trouve des infoboxes sur tout : les pokémons, les footballeurs, les jeux vidéo... Y'a du simple et du totalement imbitable (je plaide coupable pour celle-la, mais si vous saviez la tronche de l'équivalent anglais...). Il existe même un projet dédié.

Évidemment, il y a des sujets qui se prêtent plus à l'infoboxisation que d'autres. C'est à mon avis le cas des objets astronomiques, qui possèdent des caractéristiques communes qui ont le bon goût d'être essentiellement numériques; bref c'est un domaine totalement infoboxable (et d'ailleurs quasi-intégralement infoboxé).

Curieusement, la plupart des articles sur les satellites naturels des planètes du système solaire n'ont pas d'infobox. Plus exactement, ils ont une infobox directement codée en dur. Et ce n'est pas seulement le cas des p'tits cailloux paumés : il y a encore quelques jours, l'article sur Titan — probablement le satellite le plus important de tout le système solaire à part la Lune, et encore — n'en avait pas. Certes, pour être honnête, son article n'était pas en lui-même folichon. Certes, l'infobox dédiée n'est pas la plus attrayante. Mais je trouve étrange que des articles de ce genre conservent des reliquats des temps antédiluviens, quand Wikipédia était jeune et que tout restait à créer, alors que quasiment tout le reste a été infoboxé, presque à l'excès.

jeudi 10 avril 2008

Majuscules (ou est-ce capitales ?)

Juste un truc que je voulais dire : imposer la différence entre les majuscules et les minuscules dans les titres d'articles, ça tient du délire d'informaticien le plus complet.

Voilà, c'est dit.

mercredi 9 avril 2008

Paris est la capitale de la France{{ref nec}}

L'article le mentionne dès la première ligne : Paris est la capitale de la France. Maintenant, Wikipédia est censée citer ses sources : il est donc parfaitement envisageable de contester une telle affirmation.

La plus simple consiste à dire que c'est évident et que tout le monde le sait. Ou, de façon plus diplomatique, on peut soutenir qu'il y a un consensus clair en faveur de cette affirmation et que personne n'a jamais contesté la chose. Ce n'est pas faux, bien sûr, mais un peu léger tout de même, surtout si on part du principe que l'auteur d'une ligne sur Wikipédia doit apporter lui-même les preuves de ses écrits. Maintenant, comment apporter des preuves suffisantes qui permettent de dire que Paris est la capitale de la France ?

Pour ça, on a le choix. Soit on déniche des sources externes qui disent textuellement que Paris est la capitale de la France (et on s'accorde par consensus sur leur pertinence) et on a terminé, soit on fait tout à la main et c'est un peu la galère.

Bon, déjà, une capitale, c'est quoi ? Pour Wikipédia, c'est « une ville où siègent les pouvoirs, ou une ville ayant une prééminence dans un domaine social, culturel, économique ou sportif. » Pour le TLFI, c'est la « ville principale d'un État, d'une province ou d'une étendue de pays qui est le siège du gouvernement et/ou de l'administration centrale. » Bref, c'est déjà une définition floue. Si on saisit l'idée générale, on sent qu'elle peut poser des tonnes de problèmes dès qu'on rencontre des cas limites (genre, si la capitale n'est pas du tout la ville la plus peuplée du coin, ou s'il y en a plusieurs, ou si la ville la plus importante n'est pas le siège du pouvoir, ou si tout bouge trop vite, ou s'il n'y en pas, sans parler des cas franchement pourris).

Ensuite, la France, c'est quoi ? Je sais, dis comme ça, ça semble idiot. Par chance, la République française ne semble pas avoir trop de problèmes de reconnaissance au niveau mondial et l'autorité du pouvoir central n'est pas vraiment contestée sur l'intégralité du territoire, mais encore faut-il le préciser (de toute façon, en cherchant la petite bête, on doit la trouver).

Puisqu'on y est, on parle de quoi, quand on parle de Paris ? La ville ? La commune ? L'agglomération ? La région ? Pour un Parisien, c'est évident. Pour un Marseillais, Paris, ça ne doit pas s'arrêter au périph', alors pour un type qui ne connait rien à l'administration territoriale française... (D'ailleurs, nos amis anglophones ont déjà opté pour une définition plus large de ce qu'est Paris.)

Bref, si on veut montrer que Paris est bien la capitale de la France, il faut :
* s'accorder sur ce qu'est une capitale dans le cadre de l'article ;
* définir les limites géographiques de ce dont on parle ;
* montrer que ces limites sont pertinentes (et, non, le point de vue français sur les communes n'est pas le seul) ;
* apporter la preuve que les principales institutions du pays y sont situées ;
* démontrer que ces institutions ont une quelconque autorité en France, ou qu'elles sont reconnues ailleurs ;
* prouver qu'il n'y a pas d'autres villes françaises qui partagent ces caractéristiques ;
* et finalement indiquer que personne de pertinent ne les contestent.

Bref, c'est balèze.

Je ne crois pas que quelqu'un a sérieusement contesté la mention de Paris comme capitale de la France, sur Wikipédia. Je doute qu'il soit vraiment possible de contester la chose car Paris est l'archétype de la capitale ; il faudrait s'attaquer aux défauts de la cuirasse, et elle est bien soudée.

Où est-ce que je veux en venir ? Je parle de ça, non pas pour montrer qu'il est difficile de sourcer un article, mais pour mettre en avant la façon de sourcer. Quand on dit « citez vos sources », ça ne consiste pas à balancer des preuves prouvant tel ou tel point : une telle démarche n'est pas productive. Ça veut dire : « trouvez-nous quelqu'un qui dise ça ; montrez-nous qu'il est pertinent dans ce domaine. » En d'autres termes, ça consiste à se mettre d'accord sur des personnes extérieures à Wikipédia qui abondent dans ce sens.

Au final, Paris est la capitale de la France parce que tout le monde est d'accord pour dire que Paris est la capitale de la France.

vendredi 4 avril 2008

Consultations faibles, mais nombreuses

Ce n'est pas un mystère, j'adore l'outil de stats. Par contre, on ne peut pas faire des demandes très complexes, comme de voir à la fois les consultations d'un article et de ses redirections. Par contre, il y a le lien vers les données brutes, ce qui peut satisfaire la curiosité des explorateurs. Bon, faut se farcir le téléchargement et le traitement, quand même : une heure, c'est 200 Mo de données.

Histoire de voir ce qui s'y passe, j'ai téléchargé les consultations pour le 3 mars, entre 12h et 13h.
Pour cette période, il y a eu presque 700 000 consultation de fr:. Près du quart ne concernait pas l'espace encyclopédique (pages d'aide, de Wikipédia, discussions, images, recherches, pages spéciales, etc.), ce qui laissait tout de même environ 530 000 consultations directes de celui-ci, pour 187 000 titres différents. Bon, ça vaut ce que ça vaut, parce que l'article le plus consulté serait un dénommé « _(Landes) » avec 5 517 hits, ce que je trouve assez curieux (c'est quoi, ce titre ?) ; en plus, il n'y a aucune distinction de fait entre les vrais articles, les redirections et même les demandes d'accès à des articles qui n'existent pas. Il n'y a donc pas véritablement eu demande de 187 000 articles distincts (ça serait génial, si 30% de l'encyclopédie était visionnée toutes les heures), mais c'est quand même pas mal conséquent.

Parmi toutes ces demandes, 114 500 sont uniques, c'est à dire que la demande n'a été effectuée qu'une fois pendant l'heure : ça représente 60% des demandes distinctes et 20% du trafic encyclopédique total. Au total, 50% du trafic concerne des titres demandés 5 fois ou moins pendant l'heure. 10%, entre 6 et 9 fois. 3%, des titres sont demandés plus de 50 fois (quand même).

Difficile de se faire une opinion précise sur des données aussi brutes et sur un intervalle de temps aussi réduit, mais il me semble, à première vue, avec mes lunettes de type pas super doué en statistiques, que Wikipédia, c'est un peu le concept de la longue traîne appliqué à l'encyclopédisme : la plupart des demandes pourraient ne concerner que des sujets très peu consultés au total.

Maintenant, faudrait que je télécharge l'intégralité des stats de mars pour vérifier mon idée, mais j'ai un peu peur de me taper 150 Go de données.