mardi 30 juin 2009

Comme un index tendu vers le ciel

Je pense que je ne surprendrai personne en vous disant que Michael Jackson est décédé mort. Au-delà des chiffres (des millions de disques ! des milliards de thunes ! des trouzillions de dettes !), son impact sur le monde culturel est indéniable. Tenez, y'a qu'à regarder les stats de consultations de l'article Michael Jackson sur en:



Le pic du milieu, le 26 juin, culmine à plus de 5 millions d'altitude ; autrement dit, 60 personnes sont allées toutes les secondes consulter cet article ce jour là. C'est un peu fou, quand on y pense...

Ceci dit, l'influence de Michael Jackson ne s'arrête pas à son propre article. Tout d'abord, il existe bien d'autres Michael Jackson (c'est un nom courant, quand on y songe), dont certains sont recensés sur la page d'homonymie correspondante. Tenez, voici l'heure de gloire de Michael Jackson, soldat de la guerre d'indépendance américaine :



Et puis, il y a les gens qui se plantent et qui cherchent Micheal Jackson :



Sans compter ceux qui appellent le chanteur par son prénom :



Ou son nom :



Et puis on trouve aussi les paresseux, ceux qui se contentent de taper MJ et de voir ce qui se passe :



Musicalement, Jackson n'est jamais resté isolé, travaillant avec d'autres artistes et en poussant d'autres à se comparer à lui. Prenez Prince, par exemple :



Ou James Brown, son modèle :



Ou Stevie Wonder, qui collabora avec lui :



Ou même Elvis Presley, qui n'a pas d'autre lien avec Jackson que de mourir peu avant son succès planétaire et d'être également une star absolue :



Ou même Diana Ross, après tout :




Néanmoins, l'influence de Michael Jackson ne s'étend pas à tout. Parfois, il est difficile de trouver des liens. Il n'a rien à voir avec Andrew Jackson, par exemple :



Pour Michael Jordan, le lien semble exister, mais très légèrement :



Concernant Ronald Reagan, président à l'époque, c'est ténu :



Bob Marley s'en moque plutôt pas mal, de Jackson :



Par contre, Kanye West, c'est pas vraiment ça :




Enfin, tout ça pour dire, au bout du compte, RIP :

Ne me dites pas que c'est juste pour bien se faire voir !

Quel est l'intérêt de demander à ce qu'on ne mentionne pas le kidnapping d'un journaliste sur son article wikipédien, lorsque les règles du TI interdisent de toute façon de le mentionner puisqu'aucune source ne le signale ?

lundi 29 juin 2009

Musandam

Donner des noms aux lieux, c'est important, ça permet de savoir de quoi on parle. Et puis ça permet de faire des articles de Wikipédia dessus, ce qui est tout aussi important.

Ce que vous voyez sur la droite, c'est une photo satellite du bout de la péninsule arabique, la péninsule de Musandam. Politiquement, c'est une partie d'Oman séparée par les Émirats arabes unis. Géographiquement, c'est le bout de la péninsule arabique. Toponymiquement, c'est un peu la zone ; enfin, pour nous, les Occidentaux.

Pour commencer, il me semble que « Musandam » concerne toute la région (identifiée politiquement au gouvernorat de Musandam), pas seulement à la succession quasi-fractale de caps et de péninsules qu'on rencontre au bout du bout du terrain. Mais ce n'est pas très clair quand même. Rien que ça, on sent que c'est déjà mal engagé.

Comme vous pouvez aller le constater sur Google Maps, la zone ne brille pas en toponymes. Bien sûr, je me doute que la totalité de la région possède en réalité des tonnes de noms en arabe : c'est juste que je n'y ai pas accès. Je ne parle pas la langue. Je ne sais pas où chercher.

C'est assez frustrant, comme situation. Des lieux autrement plus reculés sont nommés dans le détail (vous pouvez jeter un oeil sur les îles Kerguelen, sur le Géoportail, par exemple) ; j'ai été capable de trouver plus de toponymes pour un endroit extraterrestre comme Titan que pour une région habitée par plusieurs milliers d'êtres humains comme le Musandam. Pourtant, vous avez vu toutes ces baies, ces golfes, ces îles ? Si c'est de l'appel du pied à la création d'articles, ça...

Au final, ce que je voulais dire à ma manière compliquée, c'est qu'en 2009, on a des tas de coins dont on ne connait rien, sur la planète, même pas les noms. Ceux-ci existent, mais dans un autre univers. Sur Wikipédia, on se retrouve donc à faire des articles sur le moindre village français, sur la moindre colline américaine, et à laisser en plan tout le reste. Y'a du boulot.

La quantité de la qualité

On parle tout de le temps de qualité, sur WP.

Il nous manque juste une appréciation quantitative de cette qualité. Un indicateur, quoi. Avec des nombres. Un truc qui se calcule.

C'est faisable, ça ?

jeudi 25 juin 2009

Pas pu m'en empêcher

Pour info : dans son dernier post, Pierrot critique les blogueurs qui reprennent des infos sans rien rajouter.

mercredi 24 juin 2009

Rivières, fleuves et autres cours d'eau

En 2006, l'Union astronomique internationale, avisant la tripotée de nouveaux objets tout ronds qu'on commençait à découvrir par packs de 12 au fond du système solaire, se mit en tête de pondre une définition officielle du terme « planète ». Ce ne fut pas un coup très heureux : il a fallu créer une définition plutôt arbitraire et sans vraiment d'utilité scientifique, et en plus pas très claire. Et histoire de compliquer le tout, on a introduit le concept bâtard de planète naine.

Il faut dire qu'à la base, une planète, c'est une question d'appréciation. Un bidule historique sans grande rigueur, certes impropre à une classification rigoureuse mais ce n'était pas vraiment le problème : si on voulait une classification rigoureuse, on pouvait toujours prendre autre chose. S'il y a une morale à cette histoire, c'est qu'il faut toujours se méfier quand on essaye de faire rentrer à grands coups de marteau un terme populaire dans une définition rigoureuse.

En français, il existe plusieurs termes pour définir les cours d'eau : fleuve, rivière, ruisseau, ru, etc. En gros, le ruisseau est plus petit que la rivière et celle-ci que le fleuve, mais la logique s'arrête là. En général, le fleuve se jette dans l'océan. Sauf que pas toujours : ça dépend du moment, de l'endroit, de l'histoire, de la personne... Et puis une rivière peut aussi se jeter dans l'océan, hein, suffit qu'elle soit pas très grande. Ou alors on parle de fleuve côtier. Une formidable invention, ça : c'est une rivière qui se jette dans la mer. Un peu comme un fleuve, mais en plus petit. Une rivière, quoi. Enfin ça dépend.

Bref, un fleuve et une rivière, on sait ce que c'est quand on en voit, mais on serait bien en peine d'établir une distinction rigoureuse. D'ailleurs, les anglais parlent de river dans les deux cas ; les allemands de Fluss. Pour un fleuve, le TLFI parle de « [c]ours d'eau important, généralement caractérisé par une très grande longueur et largeur, un débit abondant, des affluents nombreux, et qui se jette le plus souvent dans la mer ». Bref, la Loire, c'est un fleuve et la Chézine, c'est une rivière. Et, euh, voilà.

Tout ça ne serait pas très important si, comme pour les planètes, on se mettait à vouloir classer les cours d'eau de façon rigoureuse. Sur Wikipédia, au hasard. Fort logiquement, on commence par se dire qu'on va faire la distinction entre fleuves et rivières.

À cet instant, on a le choix. Soit on essaye de déterminer quels cours d'eau sont généralement considérés comme des fleuves : c'est la bonne méthode, totalement improductive vu le nombre de cours d'eau mais bonne. Soit on opte pour la mauvaise méthode : la définition arbitraire. Par exemple que le terme désigne forcément un cours d'eau qui se jette dans l'océan...

Soyons honnête un peu : poser qu'un cours d'eau qui se jette dans l'océan est un fleuve, ce n'est pas scandaleux. Par contre, c'est faire l'impasse sur beaucoup de questions, comme par exemple :Ensuite, comme on est sur Wikipédia, il y a un problème pratique : séparer les cours d'eau en rivières et fleuves, c'est-à-dire faire des listes et des catégories séparées pour les unes et les autres, est-ce vraiment intéressant ? Parce qu'après, on se retrouve avec une séparation artificielle de centaines de catégories, sans que l'apport encyclopédique soit bien visible. Qu'un cours d'eau se jette dans l'océan, ce n'est qu'une caractéristique très secondaire : faire tenir tout un classement là-dessus, c'est assez hasardeux.

Sur Wikipédia, la tendance générale a initialement été de distinguer les rivières et les fleuves suivant leur embouchure. À l'usage, ce classement s'est révélé improductif et on est revenu à parler principalement de cours d'eau. Pour vous donner une idée, il existe une liste des cours d'eau de France par longueur, une liste des rivières de France et une liste des fleuves de France : c'est un cauchemar à gérer.

Néanmoins, l'usage des termes étant courant en français, la question revient régulièrement sur le tapis. Elle a été évoqué sur le Bistro il y a deux jours, suite à la création d'une catégorie « Fleuve par pays », laquelle est évidemment partie à la suppression (c'est vrai que pour la Hongrie, ce n'était pas très rempli). Les arguments des uns et des autres sont tenables ; finalement, ce qui justifie le mieux de ne pas faire cette distinction, c'est à mon avis que ça complexifie inutilement Wikipédia. Pas vraiment un argument définitif... C'est pas près de s'arrêter, moijvouldis !

lundi 15 juin 2009

La contextualisation tue l'industrie du disque

Une fois n'est pas coutume, je ne vais pas parler spécifiquement de Wikipédia dans mon post, même si elle y apparaîtra par la force des choses. En fait, je vais parler musique.

Dire que l'industrie musicale est en pleine tempête, c'est un peu enfoncer une porte ouverte. Le législateur de mon pays, pour ne citer que lui, semble tellement dépassé par les événements qu'il en a été conduit à voter une loi par trois fois anticonstitutionnelle. Partout, la discussion porte sur l'aspect illégal de l'accès à la musique. Cependant, je peux dire sans crainte qu'elle se plante de sujet avec autant d'écart qu'un Continental pinté à la Guinness rate la cible en jouant aux fléchettes dans un pub irlandais. Parce que ce n'est pas le piratage qui a tué le modèle économique. C'est l'accès à l'information.

Je suis allé voir récemment Good Morning England, un film qui traite sur un mode comique des radios pirates opérant sur des rafiots en mer du Nord au mitan des années 1960. Le film est sympa, enfilant les clichés avec plus d'aplomb qu'un film hollywoodien n'ose le faire depuis des décennies, et met en scène des fantasmes de célibataires qui se saoulent, jouent aux vrais hommes cools et se tapent des minettes. Et, surtout, ce sont des DJ ; ils transmettent au reste du monde leur savoir musical, et le reste du monde les adulent pour ça (enfin, surtout les femmes, ok). Quand le film sous-entend qu'il s'agit d'une époque révolue, il a parfaitement raison. En revanche, il suppose qu'elle est révolue parce qu'il est possible de diffuser du rock à la radio au Royaume-Uni ; en fait, elle est révolue parce qu'il n'y a plus besoin de ces DJ.

En 1990, les radios libres françaises ont perdu depuis quelques temps l'aspect contestataire de leurs débuts et se muent sans à coups en bulldozers commerciaux. Je me rappelle les écouter jusqu'à pas d'heure. À l'époque, elles étaient mes uniques sources d'info musicale, forcément parcellaires, forcément orientées. Sur la question, mes copains ne m'étaient pas d'un grand secours. On faisait avec ce qu'on avait : quelques radios, des diffusions aléatoires dépendant du bon vouloir d'un type dans une cabine, des cassettes (les cd coûtent cher ; d'ailleurs, je n'ai pas eu de lecteur à moi avant mon vingtième anniversaire. Il n'aurait pas eu grand chose à manger, de toute façon). C'était normal : s'y connaître en musique était un processus long et difficile. On pouvait être cool rien que parce qu'on avait écouté les trois albums de Hendrix. Les artistes enregistraient, les éditeurs sortaient les cd, les radios les diffusaient. Il n'y avait pas vraiment d'alternative. Surtout, si les supports étaient là, il n'y avait aucune information disponible sur leur contenu : la musique n'avait aucun contexte.

En 1993, je me souviens d'un camarade de classe qui, à propos de Stairway to Heaven de Led Zeppelin, nous disait d'un air entendu que bien évidemment la musique était pompée sur un autre groupe, tout le monde savait ça. À l'époque, si j'avais voulu vérifier, il aurait fallu 1) que je connaisse le nom du groupe (le demander au crâneur était hors de question) 2) que je connaisse le nom de la chanson (rebelotte) et 3) que je trouve cette chanson (pas un groupe hyper connu donc difficile à trouver chez les disquaires, et puis il aurait fallu dépenser plus de 100 balles). La première partie était la plus difficile : j'avais beau savoir que Stairway to Heaven pouvait être un plagiat, ça ne m'avançait pas des masses (aucun bouquin à la biblio ne m'aurait aidé, forcément). Je me suis souvenu de cette histoire il y a deux semaines. L'article wikipédien m'a informé que le groupe plagié s'appelle Spirit et la chanson Taurus. Je l'ai écoutée sur Deezer dans la foulée : ça ressemble pas mal, en effet. Au total, j'y ai passé moins de cinq minutes.

En 1994, j'ai commencé à m'intéresser à Neil Young, à la suite d'une chanson entendue à la radio. Logiquement, je me suis adressé au type qui, dans ma classe, était reconnu comme le mec-avec-plein-de-disques, qui m'en a passé, des disques. Je me souviens qu'il avait, chez lui, des étagères remplies de CD, une collection bien sous tout rapport avec tous les albums qu'il fallait ; c'était impressionnant (pour ma part, je n'avais pas de thunes à l'époque et je ne pouvais que rêver d'avoir le cinquantième de ses disques). Quinze ans plus tard, je me rends compte que c'était une collection très classique qui ne couvrait jamais qu'une partie de la musique pop contemporaine. Ce qui était impressionnant à l'époque me parait désormais banal : pas la collection en elle-même (avoir autant de cd avec une telle rigueur sélective reste un accomplissement en 2009), mais son contenu. Pour autant, le copain en question avait un avantage sur une simple médiathèque : il fournissait un contexte, il était capable de lier les œuvres, il ne se contentait pas de fournir la dope mais la mettait en perspective. En 2009, Wikipédia me fournit la discographie complète de Young, contextualisée, organisée, immédiatement accessible, me renvoyant s'il le faut aux artistes et événements connexes.

En 1999, j'ai commencé à m'intéresser à la tendance IDM de la musique électronique. Et là, problème : j'étais seul dans la barque. Grâce à Internet, j'ai vite localisé les éléments importants (Aphex Twin, Autechre, le label Warp, etc.), me constituant rapidement ma petite culture (et y consacrant une petite partie de mon salaire nouvellement gagné). Et puis... Eh bien après ça, c'était toujours le même problème : même à l'époque d'Internet généralisé, il fallait chercher, creuser, rapprocher, comparer. Sans compter qu'il était souvent exclu de trouver des infos sur un groupe ou un disque et écouter dans le même mouvement ce groupe ou ce disque. À l'époque, ça semblait parfaitement normal ; maintenant, ça semble surtout archaïque (dix ans, pourtant...).

En 2009, si je veux trouver de la musique, j'ai à ma disposition une multitude de sources. Wikipédia bien sûr, perpétuellement mise à jour, la plus glorieuse construction informative jamais entreprise sur ce sujet ; Discogs pour des informations spécifiques ; Allmusic pour des critiques, et j'en passe d'autres. Je me tiens au courant de l'actualité par une multitude de sites dédiés ou de blogs, amoncellement d'infos que la presse papier peut seulement rêver de reproduire (je me suis parfois dit, en lisant les Inrocks, "mais c'est que maintenant qu'ils en parlent, de ce truc ?") et que les techniques actuelles permettent de suivre sans y consacrer tout son temps libre. J'ai les moyens d'écouter ma musique à la demande, gratuitement et immédiatement, sur une multitude de plate-formes. Le développement des lecteurs mp3 me permet de ne pas cantonner mon écoute à la proximité immédiate de ma chaîne (d'ailleurs, je n'en ai plus vraiment, de chaîne : c'est un appareil assez obsolète).

En matière musicale, quand j'étais adolescent, tout le monde avait faim mais personne ne s'en rendait compte. Par la force des choses, les sources d'information, la distribution et l'écoute étaient limitées. Actuellement, l'information est disponible partout ; la distribution a explosé ; les supports d'écoute favorisent le changement rapide. Comment imaginer un seul instant que le modèle qui tenait il y a vingt ans peut encore se maintenir ? Puisque la musique est aussi facilement accessible, comment penser que sa valeur peut rester la même ?

lundi 8 juin 2009

Couverture thématique de Wikipédia : et sur fr: ?

Il y a pas très longtemps, des chercheurs de l'université Carnegie Mellon et du centre de recherche Xerox de Palo Alto ont publié des statistiques sur la couverture thématique de Wikipedia (vous pouvez aller pour le résumé en français). La méthode employée consiste à rechercher, pour chaque article, le chemin le plus court vers une catégorie sommet, une de celles qui se trouvent tout en haut de l'arbre catégorielle : la catégorie en question donne le thème de l'article (s'il y a deux chemins de même longueur, on fait moit'-moit'). C'est simple et brutal, mais ça donne des résultats pertinents.

Je me suis dit qu'il était possible de faire la même chose pour fr:. J'ai donc téléchargé une partie des dumps du 22 mai dernier ; ensuite, c'est du number crunching de bourrin.

Voici donc ce que j'obtiens au final :
  • Géographie et lieux : 22%
  • Culture et arts : 17%
  • Personnalités : 15%
  • Société et sciences sociales : 12%
  • Techniques et sciences appliquées : 10%
  • Histoire : 10%
  • Sciences physiques et naturelles : 7%
  • Mathématiques et logique : 3%
  • Santé : 3%
  • Religion et croyance : 1%
Bon, je ne vous cache pas que c'est de l'approximatif, mais les ordres de grandeurs me semblent corrects (et cohérents avec en:). Au niveau de la méthode, je vous avoue que j'ai plus donné dans le gonzo que dans l'analyse bien carrée, donc ne prenez pas ces résultats pour plus que ce qu'ils sont. :)

Le principal problème, sur fr:, consiste à trouver des catégories pertinentes auxquelles relier les articles. Sur en:, la catégorie « Main topic classifications » permet d'avoir de la matière. Sur fr:, la catégorie « Article » n'est tout simplement pas exploitable. Heureusement, sur le dump que j'ai utilisé, on trouve une catégorie « Classification thématique principale » ; cette dernière, bien qu'effacée depuis au prétexte que c'était le travail d'une seule personne et que ça faisait doublon, émulait plus ou moins bien la hiérarchie sommitale d'en:. Après, il faut regrouper les résultats de chacune des sous-catégories dans les grands thèmes donnés plus haut, ce qui se fait parfois un peu au chausse-pied (le papier des chercheurs mentionne le thème « Philosophie et pensée », mais je ne sais pas quoi y raccrocher ; il ferait à peine 1%, de toute façon).

Voilà, vous savez désormais que fr: est obsédée par la géographie. En l'absence d'une classification thématique facilement exploitable, le procédé atteint très vite ses limites, mais l'aperçu me semble intéressant.

Les images de l'année sont nulles

Les images de l'année 2008 de Commons ont été désignées. Elles sont nulles. Mention spéciale à l'image gagnante, une caricature du pire qu'on peut trouver sur le site (sujet animalier, HDR, paysage, netteté artificielle et rigoureusement aucun intérêt encyclopédique).

En fait, Commons tente de faire concurrence à Flickr. Mais un Flickr de geek, avec une interface pourrave, des règles absconses et une interdiction de mettre ce qu'on veut.

Sur un registre similaire, Durova nous parle d'une image de Titan, Featured Picture sur en:. Il s'agit d'une mosaïque photographique du satellite de Saturne prise par les imageurs de la sonde Cassini. La pertinence encyclopédique de l'image est énorme, bien entendu, mais son déclassement a récemment été demandé. Motif : mauvaise qualité, pas assez de détails et la mise au point n'est pas constante partout. À ce niveau de connerie, je ne sais pas si c'est triste ou drôle.

jeudi 4 juin 2009

Classons nos départements sur Commons

La semaine dernière, je suis allé sur Commons et j'ai un peu rangé la catégorie Sunsets of France. J'ai donc créé des sous-catégories pour les départements et je les ai logiquement placées dans la catégorie Sunsets of France by department.

Le bidule intéressant que j'ai constaté, c'est que la catégorie contient tout en haut un bandeau récapitulatif qui liste des départements français dont les couchers de soleil font l'objet d'une catégorie dédiée. Ce bandeau se mettait à jour au fur et à mesure de mes créations départementales. En plus, il faisait la différence entre la Métropole et l'Outre-mer.

Bien sûr, c'est un modèle ad hoc qui le fait. Bien sûr, c'est redondant. Bien sûr, c'est dispensable. Mais j'ai trouvé sur le moment que c'était bien sympathique.