dimanche 27 décembre 2009

La Malédiction de Wikipédia

Si on parle d'augmentation du nombre d'articles, la discussion dérivera systématiquement, au bout de deux-trois échanges, sur un argument du style : « ouais, pourquoi pas créer des pages sur tous les atomes de l'Univers, aussi ? On ferait du chiffre ! »

Et ce, même si la discussion portait simplement sur l'amélioration de la couverture wikipédienne.

On est maudit.

Comme le dit le proverbe : some people don't want you to succeed.

lundi 21 décembre 2009

Quelques astuces d'édition - Partie I : le Commencement

Vous l'ignorez sans doute si vous ne suivez mon activité wikipédienne qu'à la lumière (trouble et enfumée) du Bistro, mais j'ai acquis une certaine compétence dans l'édition d'articles. C'est une capacité relativement inutile dans le monde du travail, mais qui peut faire ses preuves lorsqu'il s'agit d'éditer en masse 300 articles sur les frontières. Bref, ça sert à rien, mais c'est fun.

Or, je le vois bien, beaucoup de monde galère dès qu'il s'agit de créer de l'article autrement qu'à l'unité, à la main et avec amour. En conséquence, j'ai déjà eu plusieurs échanges de ce style :

— Poulpi-kun, poulpi-kun, comment fais-tu pour éditer autant d'articles aussi vite ?
— Je te le dirais bien, mais j'ai un peu la flemme, là.
— nyoro~n...

D'accord, ça contribue à mon mystère, mais c'est quand même peu productif. Pourtant, j'ai pas mal de trucs à dire sur le sujet. Ah ben tiens, c'est Noël, je suis d'astreinte et coincé au boulot sans rien d'autre à faire, alors je m'y mets.

Allez, je me change, je m'assois en tailleur en haut de la colline, tout au bout des marches, près de la cascade. Appelez-moi shīfu.

Nous allons donc commencer par la première leçon, la base absolue, l'alpha de l'editcount, Wikipedia Editing 101, tel l'apprenti-calligraphe trace inlassablement son « un » de la pointe de son pinceau pendant des mois avant que le maître ne l'autorise à changer de signe (« Ton un commence à prendre une forme moins infantile, petit disciple ; tu peux passer au deux ! — Maître, je ne mérite pas votre confiance ! ») :

Apprendre les raccourcis clavier

Dit comme ça, ça a l'air débile : vous connaissez les raccourcis clavier. Bien sûr que vous les connaissez, mais avez-vous l'automatisme de les utiliser ? Je bosse dans le milieu informatique et je suis toujours surpris de constater le nombre de collègues qui ne les utilisent pas ; et pourtant, là, c'est professionnellement important.

Dites-vous bien que la souris est une formidable invention, mais pas forcément la plus efficiente tout le temps. C'est très dommage, mais c'est la vie.

Du point de vue de l'édition wikipédienne, les raccourcis sont là pour éviter que de simples tâches de maintenance se transforment en pensums interminables : vous êtes là pour écrire des articles, pas pour lutter contre la machine !

Donc, on révise les bases (je donne les raccourcis pour Windows parce que c'est ce que j'utilise ; si vous utilisez un autre système, c'est que vous êtes plus geek que moi et que, donc, vous connaissez les équivalents. Et que vous les utilisez. Enfin, j'espère) :
  • Copier du texte : Ctrl-C
  • Couper du texte : Ctrl-X
  • Coller du texte : Ctrl-V
  • Éditer la page : Alt-Shift-E
  • Passer à la zone d'édition suivante : Tab
  • Passer à la zone d'édition précédente : Shift-Tab
  • Passer à l'onglet suivant dans le navigateur : Ctrl-Tab
  • Passer à l'onglet précédent : Ctrl-Shift-Tab
  • Passer à l'appli suivante : Alt-Tab
  • Passer à l'appli précédente : Alt-Shift-Tab
  • Se déplacer d'un mot dans la fenêtre d'édition : Ctrl-Gauche/Droite
  • Aller au débiut/à la fin : Ctrl-Haut/Bas
  • Sélectionner du texte en se déplaçant : Shift-Direction (compatible avec les déplacements précédents)

OUI, JE SAIS, vous les connaissez tous, je vous fait perdre votre temps, etc. Là, l'idée, ce n'est pas de connaître ces raccourcis, mais de les utiliser de façon instinctive, un peu comme vous savez taper du texte au clavier (évidemment, si taper au clavier n'est pas pour vous aussi habituel que d'écrire au stylo, il va falloir faire un effort). Et puis vous n'allez pas critiquer l'enseignement de votre maître dès sa première leçon, c'est très impoli.

Entrainez-vous : prenez une liste d'articles qui ont besoin d'être catégorisés (affichés sur WP dans toute la splendeur de leur lien bleu). Ouvrez un nouvel onglet pour chacun d'entre eux (limitez-vous à vingt) à l'aide du bouton central de la souris (vous avez, bien entendu, une telle souris). Ensuite, effectuez en succession rapide la séquence : ctrl-tab / alt-shift-e. Vous avez ouvert l'édition pour chacun. Revenez sur le premier ouvert, descendez au bas de la page (ctrl-fin, remontez éventuellement), tapez la catégorie puis copier toute la ligne d'un coup. Ensuite, cyclez dans tous les autres onglets, collez la ligne à la fin. Revenez-y encore au premier article édité, tapez tab, écrivez votre commentaire, copiez-le, tapez entrée pour valider la modif, cyclez, répétez. Avec un peu d'habitude, tout ça devrait vous prendre moins d'une minute.

Ensuite, essayez des trucs plus costauds : modifiez une catégorie en masse, les champs d'une infobox, remontez des blocs de texte, etc. Faites ça jusqu'à ce que ça vous semble évident. Sélectionnez, copiez, modifiez, cyclez, collez, validez. De cette façon, vous ne tremblerez plus à la perspective de modifier cent fois la même ligne sur toute une tripotée d'articles et ça vous laissera la tête libre pour des trucs plus intelligents.

Comme je vous dis, c'est la base.

C'est tout pour aujourd'hui. La prochaine fois, on va un peu plus loin.

vendredi 18 décembre 2009

...

Non mais sérieux, il sert à quoi, ce blog ? À donner mon opinion ? Tout le monde s'en tape, de ce que je raconte. J'amuse juste les gens en m'agitant devant eux, et ils applaudissent le toutou qui a bien fait son numéro.

Et le mieux dans tout ça, c'est qu'on va encore me dire que c'est de ma faute. Franchement, je ferais mieux d'envoyer tout le monde se faire voir, d'insulter les gens à longueur de pages et de m'activer pour expulser tous mes contradicteurs. Là, on dirait que j'ai une opinion tranchée, certes, mais sérieuse.

mardi 15 décembre 2009

Ŵ

Aujourd'hui, entre deux tranches de travail, je me suis traduit un article à forte teneur en poulpe : la liste de caractères Unicode latins précomposés (en gros, ces glyphes qui sont en théorie composés de deux caractères mais qui possèdent quand même leur propre caractère Unicode, comme les caractères accentués ou certaines ligatures). C'est un festival de lettres marrantes, comme Ỗ (O accent circonflexe et tilde), Ť (T hatchek), Ǣ (AE avec macron) ou ffl (ffl). Les esprits chagrins diront que TI, pas encyclopédique, liste, inutile, mais personne n'écoute les esprits chagrins de toute façon.

(..Souvenirs, une chose en rappelle une autre...)

En 1998, j'ai commencé à écouter pas mal de musique électronique (pour être honnête, j'en écoutais également beaucoup avant, mais ce n'était pas la même chose). Je suis tombé à un moment sur l'excellent In Sides d'Orbital, dont la cinquième piste porte ce nom magique : Dŵr Budr.

Quand on rencontre un titre pareil, on se demande si c'est une erreur typographique, une utilisation superfétatoire d'un accent circonflexe (après tout, Aphex Twin a bien intitulé l'une des ses plages ΔMi−1 = −aΣn=1NDi[n] [Σj∈ℂ{i}Fij[n−1]+[Fexti[n−1]], et je ne parle même pas de Spinal Tap) ou un truc qui existe vraiment pour de vrai dans le véritable monde. Et puis allez donc faire un « ŵ » pour le chercher sur Internet... En 1998, vous n'avez pas vraiment Internet, Google n'existe pas et votre entrée sera traitée comme un simple double-vé par les maigres moteurs de recherche de l'époque. Reste les sites de fans. S'ils vous l'expliquent. S'ils existent.

Mais nous sommes en 2010. Grâce à Wikipédia, vous apprenez que le ŵ se prononce comme un « ou » long en gallois. Dŵr Budr signifie simplement « eau sale » et fait référence au naufrage du pétrolier Sea Empress au large des côtes galloises en 1996 (et en plus, il m'est possible de donner un lien pour écouter directement le morceau : c'est pas beau, ça ?)

lundi 14 décembre 2009

Demain, j'arrête

Demain, j'arrête de procrastiner.

vendredi 13 novembre 2009

La Wikipédia francophone est capitaliste et italienne

Je pense que vous l'avez compris : en ce moment, ma marotte, c'est de tripatouiller le graphe des catégories de WP. J'avance lentement et pas très efficacement, parce que je n'y connais pas grand chose et que je fais ça sur mon temps libre. Mais ça me donne des idées.

L'une de mes idées, c'est de trouver une méthode automatique de classification thématique d'une Wikipédia quelconque. Contrairement à ce qu'on pourrait imaginer, c'est nettement plus complexe qu'il n'y parait.

Comme vous le savez déjà bien entendu tous (car vous lisez attentivement ce blog et vous rappelez sans problème les posts d'il y a six mois), une équipe de chercheurs a déjà réalisé un calcul de cette couverture thématique pour en:. Leur idée, c'était de calculer le plus court chemin jusqu'à une catégorie de plus haut niveau. C'est assez pertinent, mais ça suppose :
  • qu'il existe des catégories de haut niveau exploitables ;
  • que les thèmes sont limités à ces catégories de haut niveau.
Le deuxième point est ennuyeux : l'une des caractéristiques de WP est justement de casser le modèle thématique habituel (limité à des trucs génériques comme "histoire", "géographie", etc.). Quant au premier point, il n'est tout simplement pas applicable sur fr:.

C'est là que je me dis : c'est pas grave, on doit bien pouvoir trouver d'autres méthodes. Par exemple, grâce à de savants calculs de centralité, il doit sûrement être possible de définir les catégories centrales. Et donc j'ai essayé. J'ai considéré le graphe comme non-orienté et j'ai calculé la distance moyenne de chaque catégorie à toutes les autres. Dans cette approche, Catégorie cachée est la plus centrale. En dehors des catégories de maintenance, il s'agit de Entreprise italienne. Mouais. Y'a encore du boulot, j'ai l'impression. Ou alors, cette approche est complètement hors de propos dès le début. Bref, fichtre.

En passant, si WP fait la différence entre les articles de l'espace encyclopédique et les autres, cette distinction n'est pas de mise en place pour les catégories, ce qui est assez ennuyeux pour mon approche : je n'ai aucun moyen générique pour dire automatiquement si une catégorie est encyclopédique ou pas. Forcément, ça limite.

PS : oui, je suis de retour. Non, ça ne va pas beaucoup mieux.

mercredi 11 novembre 2009

Non ?

Parfois, faut arrêter de se la jouer et admettre qu'on ne sert à rien, qu'on n'a pas les bonnes idées et que ce n'est pas parce qu'on fait un blog que ça y change quoi que ce soit.

Je reviendrai peut-être ici. Demain, dans un an, je ne sais pas.

mardi 3 novembre 2009

Argleton, Lancashire, United Kingdom

Argleton est une petite ville du Lancashire, un comté du nord-ouest de l'Angleterre. Elle est située à peu de distance de la côte, un peu au nord de Liverpool. Une petite bourgade comme on en trouve des tas dans le coin, en fait. Le problème, c'est qu'Argleton n'existe pas. Ou plutôt, elle n'est visible que sous la forme d'un toponyme sur Google Maps.

Le buzz commence à se répandre sur Internet depuis qu'un type du coin en a parlé sur son blog. Un résident du coin est d'ailleurs allé vérifier sur place : là où Google mentionne une localité, on ne trouve que des champs. L'affaire a été mentionnée dans le Sunday Telegraph et dans le Guardian.

L'une des explications les plus communes, c'est qu'il s'agit d'un piège à copieurs : les cartographes introduisent parfois des erreurs dans leurs cartes afin d'être en mesure de dire, sans ambiguïté, qu'on les leur a repompées. Souvent, ça prend la forme d'une petite rue inexistante. Le problème, en ces temps d'Internet généralisé, c'est que ce genre d'ajout a des effets indésirables. Actuellement, une recherche Google sur Argleton renvoit près de 20 000 résultats, parce que l'info s'est propagée. Mais avant cela, une telle recherche renvoyait plutôt une liste de résultats automatiquement générés : écoles à Argleton, maisons en vente à Argleton, jobs à Argleton, etc. Il y a sûrement une morale à l'histoire, mais je vous laisse trouver la vôtre.

Bon. Et le truc bien dans tout ça ? C'est :

lundi 2 novembre 2009

Serious Business

En ce moment, mon opinion de Wikipédia, c'est qu'elle se prend quand même beaucoup trop au sérieux.

jeudi 22 octobre 2009

Visualisation

En cherchant un peu, on trouve différents projets, différentes approches qui tentent de cerner les données de Wikipédia.

Wikirank fait la même chose que Grok : présenter l'évolution des consultations d'un article. Par contre, il peut afficher un, deux ou trois mois d'un coup. Sur 90 jours, on visualise bien l'évolution des demandes en fonction du jour de la semaine, comme ici. Par contre, c'est limité aux trois derniers mois. Et à en:.

Chez IBM, deux idées : visualiser l'historique d'édition d'un article de façon graphique ; mettre en évidence les habitudes d'un contributeur.

Ici, une tentative de représentation graphique des pages adjacentes à un article.

Et pour finir, ça ne concerne pas exactement Wikipédia, mais l'idée n'est pas mal du tout. L'université de technologie de Delft possède son propre wiki interne. Des chercheurs en ont tracé l'évolution de la structure au fil du temps. Et histoire de bien faire, ils ont mis ça sous forme d'une vidéo.




mardi 20 octobre 2009

Mange mon chiffre !

Pour rebondir sur mon précédent post (zboïng !), je me demandais ce qui serait vraiment intéressant de calculer, si on avait la puissance de traitement adéquate. Une idée que j'avais : reprendre les principes de cette étude permettant de classer les articles par thèmes généraux. Mais le faire pour toutes les langues. Et pour tout l'historique. Ça aurait de la gueule.

Et vous, chers lecteurs, vous avez des idées ?

dimanche 18 octobre 2009

Number crunching

Conformément à sa vision libertaire, Wikipédia ne se contente pas de se faire éditer le poil par tout le monde : elle met à disposition ses entrailles. Le contenu est ici, les consultations . Pourtant, je n'ai pas l'impression de voir souvent passer des études sur le sujet. On dirait que le number crunching fait peur aux gens (c'est possible, si j'en crois cet article du NYT). Ou alors, personne ne sait que tout le bidule est en libre téléchargement.

La dernière livraison de fr: disponible en dolodage comprend 3 423 075 pages distinctes (dont 1 812 264 dans l'espace encyclopédique, redirections comprises). Elles possèdent 69 871 906 liens entre elles. C'est sûr que ça commence à faire lourd l'analyse de graphe. Et encore, là, je ne parle même pas de l'historique ou des consultations de pages (les stats de consultations sont disponibles sont la forme de fichiers zippés d'environ 60 Mo regroupant chacun une heure de temps, ainsi que plus de 5 millions de lignes). Je connais une socioloque qui aimerait bien analyser les liens entre contributeurs sur la base de leurs contributions sur les pages de discussion : c'est possible, mais va falloir se trouver un plus gros PC. En résumé : c'est du gros.

Bon, moi, j'ai pas la puissance de feu de Google, mais ça ne veut pas dire que je ne peux rien faire. Alors histoire de, j'ai regardé un peu les catégories de fr:. Il n'y en a que 124 778 dans mon dump, donc c'est jouable. Une fois évacuées les catégories concernant l'espace non-encyclopédique (un truc pas évident à définir : le logiciel ne fait pas la distinction entre catégories encyclopédiques et non-encyclopédique) et les inévitables catégories isolées, il reste un bloc d'environ 108 000 catégories. J'ai le plaisir de vous apprendre que le diamètre de son graphe est de 23 et son rayon de 12 (je suis parti du principe que le graphe n'est pas orienté, parce que sinon c'est nul ; c'est un blog ici, pas un papier soumis à peer review).

De toute évidence, une catégorie n'est pas reliée à toutes les autres par au plus six liens. Par contre, la distance moyenne entre deux catégories est d'à-peu-près 6,6. Au centre du graphe, on trouve les catégories relatives aux pays du monde (Catégorie par pays est la plus centrale). À la périphérie, on trouve les innombrables catégories relatives à la classification en biologie (Physarida est la plus excentrée). Voilà, merci de votre attention. J'espère avoir apporté quelque chose à la Connaissance.

Sinon, j'ai bien tenté de faire un joli graphique avec tout ça, mais les logiciels que j'ai eu sous la main ont la fâcheuse tendance à planter quand je leur fournis plus de 50 000 nœuds, et je n'ai pas les compétences pour en développer un ad hoc. C'est dommage, j'aime bien les jolis graphiques.

vendredi 9 octobre 2009

Humour wikipédien

Je me demande si on peut rajouter la catégorie « Décès en 1882 » sur l'article « Dieu ».

jeudi 8 octobre 2009

Poulpisme du jour

La pensée poulpique du jour : si la qualité de Wikipédia vous préoccupe, si son évolution vous tarabuste, s'il vous semble important d'en assurer la maintenance, il y a de grandes chances que vous soyez à côté de la plaque.

mardi 6 octobre 2009

Non-création d'articles

J'aime bien créer des articles sur Wikipédia. Je n'ai pas vraiment de plan d'action particulier, mais les crée un peu au hasard, suivant l'inspiration du moment.

Tenez, voici mes cinq derniers articles :
  • OJ 287, un système binaire de deux trous noirs supermassifs en orbite proche, très proche ;
  • le Bibi Ka Maqbara, ou le Taj Mahal du pauvre : un mausolée qui ressemble fortement à ce dernier, construit par un prince moghol au XVIIe ;
  • UVB-76, une station de radio militaire russe émettant depuis 25 ans un bip toutes les secondes, sans qu'on sache pourquoi (il y a même un extrait audio) ;
  • la roue de Mayence, un symbole héraldique qu'on retrouve sur une palanquée d'armoirie dans la région de Mayence ;
  • l'église des Saints-Archanges, une église orthodoxe roumaine du 5e arrondissement de Paris.
Le dernier est une création complète. Les quatre autres sont des traductions partielles de l'anglais. En fait, j'utilise ma liste de suivi anglaise pour y stocker les sujets qui me passent par la tête, en attendant d'avoir envie de les traduire. Imaginez ça un peu comme les favoris de votre navigateur, mais adapté à Wikipédia. Je me demande si d'autres personnes font pareil.

Au final, je ne suis pas un contributeur qui crée beaucoup du contenu (je ne pense pas que la traduction soit vraiment une création de contenu). Je me contente de la mise en page, de la structure, de l'organisation... J'aime à penser que c'est important. Le jour où les robots seront capables de faire mon boulot, je risque de ne plus avoir grand chose à faire.

mercredi 30 septembre 2009

Nuit Blanche

Paris va bientôt connaître une nouvelle édition du festival Nuit Blanche (si vous ne savez pas ce que c'est, parce que vous n'êtes pas parisien, ou que vous êtes parisien mais ne sortez pas de chez vous, consultez le lien, parce que c'est bien la peine sinon que je me casse à écrire des articles). Personnellement, je trouve ça assez fun, essentiellement parce que je suis un social-traître boboïsant confondant art et ludisme au mépris du peuple, de la vraie culture et des choses vraiment importantes (je résume, en gros), mais ce n'est pas la question. La question, c'est que cette manifestation annuelle possède un article sur Wikipédia et qu'on peut se demander comment évolue sa consultation.

Donc, je suis allé voir mon ami Stats Le Grok, maintenant qu'il a dans le ventre plus d'une année de statistiques de consultation. Et j'ai fait défiler les mois.

Je pourrais vous dire qu'en un an, l'article a été consulté plus de 16 000 fois. Ou que 44 personnes vont le voir en moyenne tous les jours. Ou que le samedi de la Nuit Blanche, la consultation passe à 1 200 visites. Mais ce n'est pas très parlant.

Autant y aller de son petit graphique. En plus, les graphiques, c'est cool.

Comme les histogrammes horizontaux sont du dernier ennui (et afin de justifier un peu ce blog, quand même), j'ai placé les barres autour d'un cercle. Vous avez donc ci-dessous le nombre de visites journalières sur l'article du 21 septembre 2008 au 20 septembre 2009. Le 4 octobre 2008 (date de l'édition 2008) est la grande barre à l'horizontale, vers la droite.


Y'a pas à dire, c'est vraiment saisonnier.

lundi 28 septembre 2009

Šumma awilum

Hier soir, un éminent confrère wikipédien se demandait s'il existait un exemple de texte cunéiforme en Unicode. La réponse (après quelques recherches) : pas des masses.

Il existe pourtant pas mal de ressources web sur le sujet. La Cuneiform Digital Library Initiative, par exemple, met en ligne le contenu de plusieurs centaines de milliers de tablettes cunéiformes. La translitération semble au point. Il existe également tout un plan Unicode dédié. Bref, l'akkadien, sur Internet, c'est pas de l'hébreu.

Le truc qu'on ne trouve pas, par contre, c'est en même temps : l'image originale, sa transcription textuelle en Unicode (je vous explique pas la tronche de l'OCR...), sa translittération et sa traduction. Y'a donc un marché à prendre pour Wikisource.

Allez, si on arrive à faire ça pour le code d'Hammurabi, on vous prévient. Ca serait une première.

mardi 22 septembre 2009

Patrimoine

Ordoncques se tinrent les Journées du Patrimoine. J'ignore si l'appel à l'aide des derniers jours a eu un impact. Il est sans doute encore trop tôt pour savoir combien de photos de la Pyramide du Louvre ont été envoyées sur Commons (« vous nous demandez des photos et vous effacez les miennes ? Bande de sangSSeurs faSSciSStes ! ») mais j'imagine que le bilan est globalement positif. Au pire, ça justifiera le salaire des bénévoles d'OTRS. Pour ma part, j'ai passé mon temps dans des lieux implaçables sur Commons pour cause d'inadéquation de la Loi. Le droit est vraiment une zone de non-internet.

J'étais en train d'arpenter les rues fort peu GFDL-compliant de la banlieue rouge et je me disais : « Poulpe, mon ami, te rends-tu compte que les lieux qui t'entourent, ces lieux si communs mais cependant si importants, ces mairies, ces églises, ces clapiers de béton totalement atroces mais tellement caractéristiques d'une architecture brutaliste au service de l'Homme, sais-tu qu'il y a de grandes chances qu'ils soient sur Wikipédia ? » Ce à quoi je me suis répondu : « euh, oui, ça fait quand même un moment que je le sais, t'es gentil. Et arrête de parler, t'as oublié de bouffer avant de partir et tous les kébabs d'Ivry sont fermés le dimanche, gros boulet. » Ceci dit, je savais bien que j'avais raison : deux tartines grillées à 9h, ça ne vous fait pas tenir jusqu'à 16h, et cette abondance d'articles sur les lieux sociabilisants est fascinante.

Il y a quelques mois de cela, le Mousse nous faisait partager son obsession pour la photographie artistique de bâtiments symboliques (si vous n'avez pas passé une après-midi avec lui à photographier les ambassades du 16e arrondissement, vous ne connaissez rien à la vie) et son importance pour la mémoire collective. À mon sens, son travail est fondamental. Je suis content qu'il fasse des émules.

Reste les articles eux-même (bah oui, on est quand même sur Wikipédia : ça sert à quoi d'avoir des images si c'est pour pas les utiliser ? Je vous le demande). Oui, je sais, c'est pas encyclopédique d'écrire sur la chapelle du coin, mais nous allons faire comme si pour le reste de cette chronique (je m'essaye à la wiki-fiction). Donc, imaginons que vous soyez devant la chapelle Notre-Dame-de-la-Souffrance-Expiatoire de Saint-Pétran-sur-Planier (XIIe siècle, superbes vitraux sulpiciens du XIXe, utilisée à la Révolution comme latrine par la quatrième division de Turreau) et que vous désiriez en faire un article. C'est là que le bab' laisse : si tout est normal, il n'existe rigoureusement aucune documentation fiable sur votre splendide monument. En tout cas, rien d'accessible au commun des mortels (je suppose que vous n'êtes pas historien et que vous n'avez aucune idée de la méthode historique ; de toute façon, vous n'avez pas le temps pour les recherches). Et certainement, rien de fiable. En résumé : ça craint grave sa reum.

J'ai toujours été étonné par cette absence d'info sur les éléments architecturaux de la vie de tous les jours. Un peu comme si l'environnement immédiat n'intéressait personne. Depuis que je contribue comme une loutre en rut à Wikipédia, ça m'agace carrément. Du coup, j'ai envie d'archiver dans les serveurs floridiens le maximum de choses sur ce sujet. Mais bon, ça reste coton. Au moins, ça me permet de faire des trucs comme ça (zéro info, mais des souvenirs d'enfance, c'est important pour moi).

Le pire, c'est que ça ne se limite pas à l'urbanisme ancien. Tenez, prenez un truc aussi récent que la Promenade plantée, probablement l'une des réalisations parisiennes contemporaines les plus réussies et les plus populaires. Vous croyez qu'on trouverait des trucs facilement ? Allez-y encore un peu, votre bras n'est pas encore enfoncé suffisamment dans votre œil. C'est frustrant. Le pire, c'est quand je vois que la High Line, un projet similaire à New York, bénéficie d'un site web de la mort, je me dis qu'on n'est pas aidé dans son pays. C'est pourtant une action de service public, non ?

Allez, un jour, on aura sur la France des catégories similaires à celle-là. J'en suis persuadé.

lundi 14 septembre 2009

Je tue des bébés chats

Il parait que je suis inclusionniste. J'ai toujours trouvé cette dénomination parfaitement conne, mais c'est celle-là qui a pris. En tout cas, on m'a déjà dit que j'étais le chef de file des inclusionnistes. Ou leur chef spirituel. Ou que ma vision de l'encyclopédie est fortement inclusionniste. Enfin, bref, si j'ai bien compris la chose, ça veut en général dire que je suis prêt à mettre n'importe quoi dedans. Oh boys, quand vous me dites ça, vous n'avez même pas idée.

Il est bon, entres gens distingués, de médire des inclusionnistes. Il me semble que la majeure partie de mes confrères bloggueurs n'en sont pas. Pour être honnête, il faut avouer que les inclusios standards penchent plutôt vers l'état de boulet que celui de contributeur raisonné, et que leur position tient plus de la mauvaise foi que de la volonté de développement rationnel de Wikipédia. Du coup, on ne peut plus défendre un sujet bâtard sans se faire rappeler qu'untel a balancé que les suppressionnistes sont des terroristes. C'est très bon pour le moral. Déjà qu'on s'adressait systématiquement à vous avec un petit air condescendant (ne niez pas), faut maintenant se farcir les conneries des autres. Bref.

Mon idée sur le sujet, c'est qu'on devrait accepter tout et n'importe quoi. Que l'auto-censure est néfaste à WP. Qu'on gagnerait à arrêter de se prendre la tête sur ce qui doit vivre ou mourir. Qu'on se tape pas mal de ce qui arrive dans la base de données. Que ce qui compte, ce ne sont pas les critères d'admissibilité, mais les critères de rédaction. Que la notoriété n'est qu'un concept inventé pour limiter artificiellement le nombre d'articles. Que presque personne n'a vraiment pigé l'utilité de WP. Que tout le monde fonctionne comme s'il s'agissait d'une encyclopédie du XIXe. Que WP doit être une base de données. Qu'on est tous beaucoup plus préoccupé par le qu'en-dira-t-on que par le développement construit de Wikipédia.

Ceci étant dit, je sais plus ou moins me comporter en société. Autrement dit, je ne suis pas là en train de raconter à tous ceux qui passent qu'ils font fausse route : Wikipédia fonctionne avec ses règles propres, ce ne sont pas celles que j'aurais souhaitées, tant pis, je fais avec, ce n'est pas un drame. Des tombereaux d'articles sont supprimés tous les jours, il y a un paquet de sujets que j'aimerais bien créer mais ne le peux pas : et alors ?

La vérité, c'est que ça fait des lustres que l'opposition entre inclusios et suppressios est obsolète. Wikipédia a défini son corpus d'admissibilité à sa façon, par la discussion, le consensus et le fait établi. C'est terminé : on peut passer à autre chose ? Je n'ai pas envie, en 2015, d'entendre tout le monde discutailler encore pour savoir ce qu'on met dans WP ou ce qu'on n'y met pas.

vendredi 4 septembre 2009

Mongolie, Commons et The Big Picture

The Big Picture est un blog photo hébergé par le site du Boston Globe. Environ deux fois par semaine, son auteur sélectionne une liste de photographies sur un thème donné. Les photos sont souvent de belle qualité et le choix est assez pertinent.

La dernière livraison montre des photos des deux Mongolies : la Mongolie extérieure, pays indépendant, et la Mongolie intérieure, région autonome de Chine.

Il se trouve que sur les 33 photos, 18 sont directement tirées de Commons.

Est-ce pour célébrer le cinq millionième fichier téléversé sur le site ? Probablement pas, mais c'est une coïncidence heureuse.

jeudi 3 septembre 2009

L'Autre Wiki

Il est possible que vous vous en soyez rendu compte, mais ce que j'aime le plus, dans Wikipédia, c'est sa capacité à archiver le présent. Le seul problème de WP, c'est que son caractère d'encyclopédie la pousse à se limiter à ce qui est notable (un terme que personne n'est vraiment capable de définir et qui conduit à noircir beaucoup d'octets, mais globalement, ça fonctionne).

Il y a quelques temps de cela, je suis tombé sur TV Tropes. Depuis, la notoriété du site a explosé (il possède son article sur en:, et xkcd lui a même dédié une planche). Il est possible que le public francophone ne sache pas de quoi je parle, donc j'explique un peu.

TV Tropes est un wiki qui se dédie à répertorier les conventions et les mécanismes narratifs qu'on peut trouver dans les œuvres (ce qu'on appelle des tropes). De façon surprenante, il le fait rudement bien. Le ton général possède un léger humour permanent, une distanciation bienvenue qui rend la lecture agréable et rappelle qu'au fond, tout cela n'est pas bien sérieux.

Il se trouve que TV Tropes est parfaitement conscient de l'existence de Wikipedia (qu'il surnomme l'« Autre Wiki »). En fait, je les soupçonne de posséder des transfuges wikipédiens, vu qu'ils annonce dès le début qu'ils se contrecarrent de l'admissibilité. Ou, pour reprendre leurs termes : « toutes les œuvres sont admissibles ». Oui, même le webcomic dessiné par le petit voisin à propos de son chien. C'est assez radical, mais ça fonctionne. D'ailleurs, je suis persuadé que le site bénéficie plus de cette politique que si, mettons, les créateurs avaient décidé de pondre des critères d'admissibilité.

Personnellement, quand j'ai besoin qu'on m'explique un truc sur une série télé, un film, un personnage de fiction ou un truc du même genre, je vais sur en: pour en connaitre le squelette et sur TV Tropes pour en appréhender la substance.

Bon, soyons un peu sérieux quand même : j'ignore si Wikipédia peut bénéficier du business model de TV Tropes, qui est un wiki à objectif ciblé. J'admire quand même le culot de l'équipe qui a pondu les règles.

lundi 31 août 2009

(___^){

C'est une tradition bien établie : chaque jour, le Bistro débute par des propositions d'articles à créer ou améliorer. Hier, j'ai proposé de créer l'article sur la baleine de Twitter. C'était en même temps une petite blague et une idée bien sérieuse. Petite blague parce que le sujet est obscur et son admissibilité peu évidente. Idée sérieuse, puisque je pensais que ça valait le coup de placer la chose dans les archives.

La baleine de Twitter, c'est l'illustration que vous voyez quand le site est en rade : une fort jolie baleine réveuse, portée dans un filet par huit oiseaux rouges (vous pouvez l'admirer ici). Du fait de la notoriété croissante de Twitter, la baleine (ou Fail Whale en VO) se retrouve désormais un peu partout, comme tout virus mémétique. L'illustration originale s'appelle Lifting Up the Dreamer (et n'a rien à voir avec Twitter, d'ailleurs) ; son article existe désormais sur Wikipédia. Il a été créé par un nouveau contributeur qui passait sur le Bistro et m'a pris au mot, et je l'en remercie. Bien entendu, la demande de suppression a été apposée peu après, et la page de discussion du contributeur originel s'est pris en même temps un bienvenutage ET un avertissement de PàS : comme accueil, on fait mieux. Mais tout s'est bien terminé, la PàS a été close avant même 24 h sur la base d'un score chiraquien pour la conservation et fr: peut s'ennorgueillir de posséder une page sur un sujet récent (et anglophone) que personne d'autre n'a, même pas en:.

Tout ceci est plus important qu'il n'y parait. J'ai souvent entendu des propos du style : « ça ne sert à rien d'écrire un article sur ce sujet, il sera oublié dans deux mois ». Pour moi, ce genre de raisonnement est étrange : si un sujet risque d'être oublié dans deux mois, c'est qu'il faut se presser de l'archiver pour en conserver une trace. Autrement dit, ce n'est pas un argument très pertinent pour la suppression (ou la conservation, d'ailleurs ; c'est juste à côté de la plaque). Et ce que j'aime bien dans Wikipédia, c'est son incroyable capacité à coucher la volatilité du présent sur le disque dur.

Le poster « HOPE » d'Obama ? Il est . Le Rickroll ? Ici. Leeroy Jenkis ? Présent. L'éthique DIY du punk ? Pareil. Les télécommandes qui servent à éteindre les écrans qui vous perturbent dans les bars ? Y'a aussi. Le tréma sur les noms de groupes de metal ? Idem. L'image avec Dieu qui tue des chatons ? Itou. Emily the Strange ? C'est possible. Les Phone traps ? Tu paries. La culture Tiki ? La voilà.

Si j'ai bien compris, la présence de ces sujets désole certains. Pour ma part, j'y vois une chance incroyable. Si la place était limitée, si leur écriture se faisait au détriment de, mettons, la Guerre de Trente ans ou le Barbier de Séville, il est possible que je sois plus réservé. Mais là... Incidemment, les articles de ce style sont nettement plus courant sur en: que sur fr:. Est-ce dû à une meilleure acceptation du folklore dans la culture générale anglo-saxonne ?

Allez, la prochaine fois, faut que je demande à écrire sur les cadenas d'amour.

samedi 29 août 2009

Trévoux

Entrainé par l'enthousiame de certains contributeurs, je me suis mis à contribuer au projet Trévoux sur Wikisource. Le Trévoux, c'est une sorte de dictionnaire encyclopédique du XVIIIe qui possède plusieurs particularités (mention de la pluralité des points de vue, sourçage, etc. Mais Serein en parle mieux que moi). L'ouvrage n'oublie même pas le troll, en témoin ce passage à l'entrée « bayer » :

« Ce verbe est toujours neutre. Les Vocabulistes le disent avec tout le monde ; & pour le prouver, ils apportent cet exemple. Que bayez-vous là depuis deux heures ? Eux qui relevent si durement les prétendues bevues des autres, comment qualifiroient-ils celle-ci. »

Ouaip, ça balançait sec, chez les Jésuites du XVIIIe.

Sinon, les auteurs utilisent sans aucun complexe des termes en latin, en hébreu et en grec ancien, ce qui rend la transcription parfois difficile pour un type du XXIe comme moi. Butant sur un terme grec contenant le caractère « ȣ », je me suis rappelé que la place était plus limitée sur un dictionnaire de 1769 que sur une encyclopédie en ligne de 2009 et que l'usage des ligatures était alors courant (ici, celle d'un omicron et d'un upsilon, histoire d'éviter d'écrire « ου »). Pour prolonger l'expérience, je me suis créé une ébauche sur les ligatures de l'alphabet grec et j'ai constaté dans la foulée que c'est moi qui avait créé l'article ȣ il y a quatre ans, et que j'avais oublié d'y mentionner l'essentiel.

C'est sûr, ça me change des frontières et des astéroïdes.

lundi 24 août 2009

Wikipédia n'est pas un réseau social

Wikipédia n'est pas un réseau social, tout le monde le sait (même si je soupçonne la majorité des contributeurs réguliers de n'avoir aucun idée de ce que ce terme signifie). Ça ne veut pas dire qu'on ne peut pas y nouer des contacts.

Il y a deux semaines de cela, j'ai pris mon baluchon et le TGV pour la Romandie. J'y ai retrouvé des personnes que je connais, que j'avais déjà rencontrées, que je n'avais croisées que sur IRC, voire dont je n'avais pas entendu parler. Nous avons visité le coin, parlé, bu des coups, discuté, mangé des fondues, palabré, échangé, taillé le bout de gras. Nous n'avons pas parlé que de Wikipédia (même si le sujet était d'un abord facile). Contrairement aux fantasmes, nous n'avons pas planifié la mise sous contrôle de Wikipédia lors de notre assemblée secrète où tout le monde pouvait participer (c'est inutile, de toute façon : nous contrôlons déjà tout). C'était simplement une rencontre de gens partageant un passe-temps commun. Un événement enrichissant.

Wikipédia n'est donc pas un réseau social, mais il m'a permis tout de même de rencontrer des personnes que j'apprécie. Et puis, j'y pensais à propos de tout ça, vu que l'expertise n'a aucun intérêt sur WP (sans preuve d'expertise, pas d'expertise possible), il est bon de communiquer, d'échanger, de parler avec les gens pour savoir ce dont ils sont capables, leurs spécialités, leurs intérêts... Nous sommes sur un wiki social.




Après la Suisse, j'ai fait le mariole dans les trains d'Italie et je n'ai plus parlé pendant près de dix jours (sauf pour dire des trucs comme "Buongiorno", ce qui n'est pas vraiment parler). C'était un excellent voyage. Maintenant, je me dis qu'il faudrait que j'augmente les articles manquants sur les lieux que j'ai visités avant qu'ils ne s'échappent de ma mémoire... On m'a dit qu'on ne pouvait pas utiliser le Guide du Routard comme référence sérieuse ; est-ce qu'on peut sourcer avec quelque chose comme "plaque d'information sur le mur de l'église" ?

jeudi 6 août 2009

Avis d'absence

Eh bien ! Ça fait un moment que je n'ai pas ouvert cette page ! D'importants soucis personnels et professionnels m'en ont tenu à l'écart, ainsi — dois-je l'avouer ? — qu'une flemme monstrueuse. En plus, en été, j'ai plutôt tendance à sortir quand je le peux. Bref.

Malheureusement pour vous, très chers lecteurs, ça ne va pas s'arranger tout de suite. J'ai prévu d'aller cabaliser un peu au pays des Helvètes, histoire de côtoyer quelques camarades de blogs. Ensuite, je traverse les Alpes de part en part afin d'effectuer un tour de l'Italie du Nord. Souhaitez-moi de ne pas avoir trop chaud, que mes trains arrivent à l'heure et que mes cartes mémoires suffisent à prendre toutes les églises du coin en photo (si vous connaissez la région, vous savez qu'on en trouve une à chaque coin de rue).

Comme la Prèz, j'ai consulté la totalité des articles wikipédiens relatifs à mon parcours. On a beau dire ce qu'on veut, c'est là qu'on trouve les informations les plus pertinentes pour, par exemple, les tours de Bologne, le château d'Este de Ferrare, la cathédrale de Milan ou le Ghetto de Venise. Par contre, heureux détenteur d'un iPhone, j'ai profité de la nouvelle fonctionnalité de Wapedia (une application qui met en forme les articles de WP et simplifie la navigation) : la sauvegarde des articles sur l'appareil. Je me suis donc fait mon propre guide de voyage personnel. Et tout ça gratuitement. Merci, Wikipédia !

Allez, à la prochaine !

mardi 30 juin 2009

Comme un index tendu vers le ciel

Je pense que je ne surprendrai personne en vous disant que Michael Jackson est décédé mort. Au-delà des chiffres (des millions de disques ! des milliards de thunes ! des trouzillions de dettes !), son impact sur le monde culturel est indéniable. Tenez, y'a qu'à regarder les stats de consultations de l'article Michael Jackson sur en:



Le pic du milieu, le 26 juin, culmine à plus de 5 millions d'altitude ; autrement dit, 60 personnes sont allées toutes les secondes consulter cet article ce jour là. C'est un peu fou, quand on y pense...

Ceci dit, l'influence de Michael Jackson ne s'arrête pas à son propre article. Tout d'abord, il existe bien d'autres Michael Jackson (c'est un nom courant, quand on y songe), dont certains sont recensés sur la page d'homonymie correspondante. Tenez, voici l'heure de gloire de Michael Jackson, soldat de la guerre d'indépendance américaine :



Et puis, il y a les gens qui se plantent et qui cherchent Micheal Jackson :



Sans compter ceux qui appellent le chanteur par son prénom :



Ou son nom :



Et puis on trouve aussi les paresseux, ceux qui se contentent de taper MJ et de voir ce qui se passe :



Musicalement, Jackson n'est jamais resté isolé, travaillant avec d'autres artistes et en poussant d'autres à se comparer à lui. Prenez Prince, par exemple :



Ou James Brown, son modèle :



Ou Stevie Wonder, qui collabora avec lui :



Ou même Elvis Presley, qui n'a pas d'autre lien avec Jackson que de mourir peu avant son succès planétaire et d'être également une star absolue :



Ou même Diana Ross, après tout :




Néanmoins, l'influence de Michael Jackson ne s'étend pas à tout. Parfois, il est difficile de trouver des liens. Il n'a rien à voir avec Andrew Jackson, par exemple :



Pour Michael Jordan, le lien semble exister, mais très légèrement :



Concernant Ronald Reagan, président à l'époque, c'est ténu :



Bob Marley s'en moque plutôt pas mal, de Jackson :



Par contre, Kanye West, c'est pas vraiment ça :




Enfin, tout ça pour dire, au bout du compte, RIP :

Ne me dites pas que c'est juste pour bien se faire voir !

Quel est l'intérêt de demander à ce qu'on ne mentionne pas le kidnapping d'un journaliste sur son article wikipédien, lorsque les règles du TI interdisent de toute façon de le mentionner puisqu'aucune source ne le signale ?

lundi 29 juin 2009

Musandam

Donner des noms aux lieux, c'est important, ça permet de savoir de quoi on parle. Et puis ça permet de faire des articles de Wikipédia dessus, ce qui est tout aussi important.

Ce que vous voyez sur la droite, c'est une photo satellite du bout de la péninsule arabique, la péninsule de Musandam. Politiquement, c'est une partie d'Oman séparée par les Émirats arabes unis. Géographiquement, c'est le bout de la péninsule arabique. Toponymiquement, c'est un peu la zone ; enfin, pour nous, les Occidentaux.

Pour commencer, il me semble que « Musandam » concerne toute la région (identifiée politiquement au gouvernorat de Musandam), pas seulement à la succession quasi-fractale de caps et de péninsules qu'on rencontre au bout du bout du terrain. Mais ce n'est pas très clair quand même. Rien que ça, on sent que c'est déjà mal engagé.

Comme vous pouvez aller le constater sur Google Maps, la zone ne brille pas en toponymes. Bien sûr, je me doute que la totalité de la région possède en réalité des tonnes de noms en arabe : c'est juste que je n'y ai pas accès. Je ne parle pas la langue. Je ne sais pas où chercher.

C'est assez frustrant, comme situation. Des lieux autrement plus reculés sont nommés dans le détail (vous pouvez jeter un oeil sur les îles Kerguelen, sur le Géoportail, par exemple) ; j'ai été capable de trouver plus de toponymes pour un endroit extraterrestre comme Titan que pour une région habitée par plusieurs milliers d'êtres humains comme le Musandam. Pourtant, vous avez vu toutes ces baies, ces golfes, ces îles ? Si c'est de l'appel du pied à la création d'articles, ça...

Au final, ce que je voulais dire à ma manière compliquée, c'est qu'en 2009, on a des tas de coins dont on ne connait rien, sur la planète, même pas les noms. Ceux-ci existent, mais dans un autre univers. Sur Wikipédia, on se retrouve donc à faire des articles sur le moindre village français, sur la moindre colline américaine, et à laisser en plan tout le reste. Y'a du boulot.

La quantité de la qualité

On parle tout de le temps de qualité, sur WP.

Il nous manque juste une appréciation quantitative de cette qualité. Un indicateur, quoi. Avec des nombres. Un truc qui se calcule.

C'est faisable, ça ?

jeudi 25 juin 2009

Pas pu m'en empêcher

Pour info : dans son dernier post, Pierrot critique les blogueurs qui reprennent des infos sans rien rajouter.

mercredi 24 juin 2009

Rivières, fleuves et autres cours d'eau

En 2006, l'Union astronomique internationale, avisant la tripotée de nouveaux objets tout ronds qu'on commençait à découvrir par packs de 12 au fond du système solaire, se mit en tête de pondre une définition officielle du terme « planète ». Ce ne fut pas un coup très heureux : il a fallu créer une définition plutôt arbitraire et sans vraiment d'utilité scientifique, et en plus pas très claire. Et histoire de compliquer le tout, on a introduit le concept bâtard de planète naine.

Il faut dire qu'à la base, une planète, c'est une question d'appréciation. Un bidule historique sans grande rigueur, certes impropre à une classification rigoureuse mais ce n'était pas vraiment le problème : si on voulait une classification rigoureuse, on pouvait toujours prendre autre chose. S'il y a une morale à cette histoire, c'est qu'il faut toujours se méfier quand on essaye de faire rentrer à grands coups de marteau un terme populaire dans une définition rigoureuse.

En français, il existe plusieurs termes pour définir les cours d'eau : fleuve, rivière, ruisseau, ru, etc. En gros, le ruisseau est plus petit que la rivière et celle-ci que le fleuve, mais la logique s'arrête là. En général, le fleuve se jette dans l'océan. Sauf que pas toujours : ça dépend du moment, de l'endroit, de l'histoire, de la personne... Et puis une rivière peut aussi se jeter dans l'océan, hein, suffit qu'elle soit pas très grande. Ou alors on parle de fleuve côtier. Une formidable invention, ça : c'est une rivière qui se jette dans la mer. Un peu comme un fleuve, mais en plus petit. Une rivière, quoi. Enfin ça dépend.

Bref, un fleuve et une rivière, on sait ce que c'est quand on en voit, mais on serait bien en peine d'établir une distinction rigoureuse. D'ailleurs, les anglais parlent de river dans les deux cas ; les allemands de Fluss. Pour un fleuve, le TLFI parle de « [c]ours d'eau important, généralement caractérisé par une très grande longueur et largeur, un débit abondant, des affluents nombreux, et qui se jette le plus souvent dans la mer ». Bref, la Loire, c'est un fleuve et la Chézine, c'est une rivière. Et, euh, voilà.

Tout ça ne serait pas très important si, comme pour les planètes, on se mettait à vouloir classer les cours d'eau de façon rigoureuse. Sur Wikipédia, au hasard. Fort logiquement, on commence par se dire qu'on va faire la distinction entre fleuves et rivières.

À cet instant, on a le choix. Soit on essaye de déterminer quels cours d'eau sont généralement considérés comme des fleuves : c'est la bonne méthode, totalement improductive vu le nombre de cours d'eau mais bonne. Soit on opte pour la mauvaise méthode : la définition arbitraire. Par exemple que le terme désigne forcément un cours d'eau qui se jette dans l'océan...

Soyons honnête un peu : poser qu'un cours d'eau qui se jette dans l'océan est un fleuve, ce n'est pas scandaleux. Par contre, c'est faire l'impasse sur beaucoup de questions, comme par exemple :Ensuite, comme on est sur Wikipédia, il y a un problème pratique : séparer les cours d'eau en rivières et fleuves, c'est-à-dire faire des listes et des catégories séparées pour les unes et les autres, est-ce vraiment intéressant ? Parce qu'après, on se retrouve avec une séparation artificielle de centaines de catégories, sans que l'apport encyclopédique soit bien visible. Qu'un cours d'eau se jette dans l'océan, ce n'est qu'une caractéristique très secondaire : faire tenir tout un classement là-dessus, c'est assez hasardeux.

Sur Wikipédia, la tendance générale a initialement été de distinguer les rivières et les fleuves suivant leur embouchure. À l'usage, ce classement s'est révélé improductif et on est revenu à parler principalement de cours d'eau. Pour vous donner une idée, il existe une liste des cours d'eau de France par longueur, une liste des rivières de France et une liste des fleuves de France : c'est un cauchemar à gérer.

Néanmoins, l'usage des termes étant courant en français, la question revient régulièrement sur le tapis. Elle a été évoqué sur le Bistro il y a deux jours, suite à la création d'une catégorie « Fleuve par pays », laquelle est évidemment partie à la suppression (c'est vrai que pour la Hongrie, ce n'était pas très rempli). Les arguments des uns et des autres sont tenables ; finalement, ce qui justifie le mieux de ne pas faire cette distinction, c'est à mon avis que ça complexifie inutilement Wikipédia. Pas vraiment un argument définitif... C'est pas près de s'arrêter, moijvouldis !

lundi 15 juin 2009

La contextualisation tue l'industrie du disque

Une fois n'est pas coutume, je ne vais pas parler spécifiquement de Wikipédia dans mon post, même si elle y apparaîtra par la force des choses. En fait, je vais parler musique.

Dire que l'industrie musicale est en pleine tempête, c'est un peu enfoncer une porte ouverte. Le législateur de mon pays, pour ne citer que lui, semble tellement dépassé par les événements qu'il en a été conduit à voter une loi par trois fois anticonstitutionnelle. Partout, la discussion porte sur l'aspect illégal de l'accès à la musique. Cependant, je peux dire sans crainte qu'elle se plante de sujet avec autant d'écart qu'un Continental pinté à la Guinness rate la cible en jouant aux fléchettes dans un pub irlandais. Parce que ce n'est pas le piratage qui a tué le modèle économique. C'est l'accès à l'information.

Je suis allé voir récemment Good Morning England, un film qui traite sur un mode comique des radios pirates opérant sur des rafiots en mer du Nord au mitan des années 1960. Le film est sympa, enfilant les clichés avec plus d'aplomb qu'un film hollywoodien n'ose le faire depuis des décennies, et met en scène des fantasmes de célibataires qui se saoulent, jouent aux vrais hommes cools et se tapent des minettes. Et, surtout, ce sont des DJ ; ils transmettent au reste du monde leur savoir musical, et le reste du monde les adulent pour ça (enfin, surtout les femmes, ok). Quand le film sous-entend qu'il s'agit d'une époque révolue, il a parfaitement raison. En revanche, il suppose qu'elle est révolue parce qu'il est possible de diffuser du rock à la radio au Royaume-Uni ; en fait, elle est révolue parce qu'il n'y a plus besoin de ces DJ.

En 1990, les radios libres françaises ont perdu depuis quelques temps l'aspect contestataire de leurs débuts et se muent sans à coups en bulldozers commerciaux. Je me rappelle les écouter jusqu'à pas d'heure. À l'époque, elles étaient mes uniques sources d'info musicale, forcément parcellaires, forcément orientées. Sur la question, mes copains ne m'étaient pas d'un grand secours. On faisait avec ce qu'on avait : quelques radios, des diffusions aléatoires dépendant du bon vouloir d'un type dans une cabine, des cassettes (les cd coûtent cher ; d'ailleurs, je n'ai pas eu de lecteur à moi avant mon vingtième anniversaire. Il n'aurait pas eu grand chose à manger, de toute façon). C'était normal : s'y connaître en musique était un processus long et difficile. On pouvait être cool rien que parce qu'on avait écouté les trois albums de Hendrix. Les artistes enregistraient, les éditeurs sortaient les cd, les radios les diffusaient. Il n'y avait pas vraiment d'alternative. Surtout, si les supports étaient là, il n'y avait aucune information disponible sur leur contenu : la musique n'avait aucun contexte.

En 1993, je me souviens d'un camarade de classe qui, à propos de Stairway to Heaven de Led Zeppelin, nous disait d'un air entendu que bien évidemment la musique était pompée sur un autre groupe, tout le monde savait ça. À l'époque, si j'avais voulu vérifier, il aurait fallu 1) que je connaisse le nom du groupe (le demander au crâneur était hors de question) 2) que je connaisse le nom de la chanson (rebelotte) et 3) que je trouve cette chanson (pas un groupe hyper connu donc difficile à trouver chez les disquaires, et puis il aurait fallu dépenser plus de 100 balles). La première partie était la plus difficile : j'avais beau savoir que Stairway to Heaven pouvait être un plagiat, ça ne m'avançait pas des masses (aucun bouquin à la biblio ne m'aurait aidé, forcément). Je me suis souvenu de cette histoire il y a deux semaines. L'article wikipédien m'a informé que le groupe plagié s'appelle Spirit et la chanson Taurus. Je l'ai écoutée sur Deezer dans la foulée : ça ressemble pas mal, en effet. Au total, j'y ai passé moins de cinq minutes.

En 1994, j'ai commencé à m'intéresser à Neil Young, à la suite d'une chanson entendue à la radio. Logiquement, je me suis adressé au type qui, dans ma classe, était reconnu comme le mec-avec-plein-de-disques, qui m'en a passé, des disques. Je me souviens qu'il avait, chez lui, des étagères remplies de CD, une collection bien sous tout rapport avec tous les albums qu'il fallait ; c'était impressionnant (pour ma part, je n'avais pas de thunes à l'époque et je ne pouvais que rêver d'avoir le cinquantième de ses disques). Quinze ans plus tard, je me rends compte que c'était une collection très classique qui ne couvrait jamais qu'une partie de la musique pop contemporaine. Ce qui était impressionnant à l'époque me parait désormais banal : pas la collection en elle-même (avoir autant de cd avec une telle rigueur sélective reste un accomplissement en 2009), mais son contenu. Pour autant, le copain en question avait un avantage sur une simple médiathèque : il fournissait un contexte, il était capable de lier les œuvres, il ne se contentait pas de fournir la dope mais la mettait en perspective. En 2009, Wikipédia me fournit la discographie complète de Young, contextualisée, organisée, immédiatement accessible, me renvoyant s'il le faut aux artistes et événements connexes.

En 1999, j'ai commencé à m'intéresser à la tendance IDM de la musique électronique. Et là, problème : j'étais seul dans la barque. Grâce à Internet, j'ai vite localisé les éléments importants (Aphex Twin, Autechre, le label Warp, etc.), me constituant rapidement ma petite culture (et y consacrant une petite partie de mon salaire nouvellement gagné). Et puis... Eh bien après ça, c'était toujours le même problème : même à l'époque d'Internet généralisé, il fallait chercher, creuser, rapprocher, comparer. Sans compter qu'il était souvent exclu de trouver des infos sur un groupe ou un disque et écouter dans le même mouvement ce groupe ou ce disque. À l'époque, ça semblait parfaitement normal ; maintenant, ça semble surtout archaïque (dix ans, pourtant...).

En 2009, si je veux trouver de la musique, j'ai à ma disposition une multitude de sources. Wikipédia bien sûr, perpétuellement mise à jour, la plus glorieuse construction informative jamais entreprise sur ce sujet ; Discogs pour des informations spécifiques ; Allmusic pour des critiques, et j'en passe d'autres. Je me tiens au courant de l'actualité par une multitude de sites dédiés ou de blogs, amoncellement d'infos que la presse papier peut seulement rêver de reproduire (je me suis parfois dit, en lisant les Inrocks, "mais c'est que maintenant qu'ils en parlent, de ce truc ?") et que les techniques actuelles permettent de suivre sans y consacrer tout son temps libre. J'ai les moyens d'écouter ma musique à la demande, gratuitement et immédiatement, sur une multitude de plate-formes. Le développement des lecteurs mp3 me permet de ne pas cantonner mon écoute à la proximité immédiate de ma chaîne (d'ailleurs, je n'en ai plus vraiment, de chaîne : c'est un appareil assez obsolète).

En matière musicale, quand j'étais adolescent, tout le monde avait faim mais personne ne s'en rendait compte. Par la force des choses, les sources d'information, la distribution et l'écoute étaient limitées. Actuellement, l'information est disponible partout ; la distribution a explosé ; les supports d'écoute favorisent le changement rapide. Comment imaginer un seul instant que le modèle qui tenait il y a vingt ans peut encore se maintenir ? Puisque la musique est aussi facilement accessible, comment penser que sa valeur peut rester la même ?

lundi 8 juin 2009

Couverture thématique de Wikipédia : et sur fr: ?

Il y a pas très longtemps, des chercheurs de l'université Carnegie Mellon et du centre de recherche Xerox de Palo Alto ont publié des statistiques sur la couverture thématique de Wikipedia (vous pouvez aller pour le résumé en français). La méthode employée consiste à rechercher, pour chaque article, le chemin le plus court vers une catégorie sommet, une de celles qui se trouvent tout en haut de l'arbre catégorielle : la catégorie en question donne le thème de l'article (s'il y a deux chemins de même longueur, on fait moit'-moit'). C'est simple et brutal, mais ça donne des résultats pertinents.

Je me suis dit qu'il était possible de faire la même chose pour fr:. J'ai donc téléchargé une partie des dumps du 22 mai dernier ; ensuite, c'est du number crunching de bourrin.

Voici donc ce que j'obtiens au final :
  • Géographie et lieux : 22%
  • Culture et arts : 17%
  • Personnalités : 15%
  • Société et sciences sociales : 12%
  • Techniques et sciences appliquées : 10%
  • Histoire : 10%
  • Sciences physiques et naturelles : 7%
  • Mathématiques et logique : 3%
  • Santé : 3%
  • Religion et croyance : 1%
Bon, je ne vous cache pas que c'est de l'approximatif, mais les ordres de grandeurs me semblent corrects (et cohérents avec en:). Au niveau de la méthode, je vous avoue que j'ai plus donné dans le gonzo que dans l'analyse bien carrée, donc ne prenez pas ces résultats pour plus que ce qu'ils sont. :)

Le principal problème, sur fr:, consiste à trouver des catégories pertinentes auxquelles relier les articles. Sur en:, la catégorie « Main topic classifications » permet d'avoir de la matière. Sur fr:, la catégorie « Article » n'est tout simplement pas exploitable. Heureusement, sur le dump que j'ai utilisé, on trouve une catégorie « Classification thématique principale » ; cette dernière, bien qu'effacée depuis au prétexte que c'était le travail d'une seule personne et que ça faisait doublon, émulait plus ou moins bien la hiérarchie sommitale d'en:. Après, il faut regrouper les résultats de chacune des sous-catégories dans les grands thèmes donnés plus haut, ce qui se fait parfois un peu au chausse-pied (le papier des chercheurs mentionne le thème « Philosophie et pensée », mais je ne sais pas quoi y raccrocher ; il ferait à peine 1%, de toute façon).

Voilà, vous savez désormais que fr: est obsédée par la géographie. En l'absence d'une classification thématique facilement exploitable, le procédé atteint très vite ses limites, mais l'aperçu me semble intéressant.

Les images de l'année sont nulles

Les images de l'année 2008 de Commons ont été désignées. Elles sont nulles. Mention spéciale à l'image gagnante, une caricature du pire qu'on peut trouver sur le site (sujet animalier, HDR, paysage, netteté artificielle et rigoureusement aucun intérêt encyclopédique).

En fait, Commons tente de faire concurrence à Flickr. Mais un Flickr de geek, avec une interface pourrave, des règles absconses et une interdiction de mettre ce qu'on veut.

Sur un registre similaire, Durova nous parle d'une image de Titan, Featured Picture sur en:. Il s'agit d'une mosaïque photographique du satellite de Saturne prise par les imageurs de la sonde Cassini. La pertinence encyclopédique de l'image est énorme, bien entendu, mais son déclassement a récemment été demandé. Motif : mauvaise qualité, pas assez de détails et la mise au point n'est pas constante partout. À ce niveau de connerie, je ne sais pas si c'est triste ou drôle.

jeudi 4 juin 2009

Classons nos départements sur Commons

La semaine dernière, je suis allé sur Commons et j'ai un peu rangé la catégorie Sunsets of France. J'ai donc créé des sous-catégories pour les départements et je les ai logiquement placées dans la catégorie Sunsets of France by department.

Le bidule intéressant que j'ai constaté, c'est que la catégorie contient tout en haut un bandeau récapitulatif qui liste des départements français dont les couchers de soleil font l'objet d'une catégorie dédiée. Ce bandeau se mettait à jour au fur et à mesure de mes créations départementales. En plus, il faisait la différence entre la Métropole et l'Outre-mer.

Bien sûr, c'est un modèle ad hoc qui le fait. Bien sûr, c'est redondant. Bien sûr, c'est dispensable. Mais j'ai trouvé sur le moment que c'était bien sympathique.

vendredi 29 mai 2009

Logos

Le logo de Wikipédia, depuis son origine en 2000 comme entrée refusée lors d'un concours destiné à la Nupedia défunte et son évolution vers la boule en puzzle actuelle : un historique raconté par le créateur du logo original, qui n'a découvert que récemment la chose (et qui en est plutôt content, d'ailleurs).

(Moi, je me souviens du logo vert avec le petit oiseau qui était en place quand j'ai débuté ; c'est bête, je n'arrive pas à remettre la main dessus. Par contre, j'ai jeté un œil à l'historique du logo actuel : jusqu'à la fin 2006, on pouvait encore s'amuser. :) )

lundi 25 mai 2009

data.everywhere

Via edwired, j'apprends l'existence de data.gov, un site fédéral américain rassemblant des tas de données d'une tripotée de sites gouvernementaux (avec téléchargements en xml, csv, texte, kml et j'en passe). C'est visiblement amené à s'étoffer.

Je me dis qu'il faudrait faire une liste des sites proposant des données de ce type, tiens.

mercredi 20 mai 2009

Arbre de concepts

Alors que je me suis mis en tête de réécrire l'article « Semi-conducteur » (vaste programme...), je suis tombé sur cette présentation hiérarchique du concept. C'est assez efficace, je trouve.

lundi 18 mai 2009

Wolfram Alpha

Quand j'étais plus jeune, je me rappelle les anciens clichés de science-fiction où les protagonistes demandaient qui désiraient des informations sur un sujet, se tournaient vers l'Ordinateur central. Celui-ci retournait une suite de données générales, une déferlante de nombres à l'utilité douteuse mais que les héros, invariablement, réussissaient à interpréter pour poursuivre leurs aventures.

Bien entendu, le concept a été globalement atomisé par le développement d'Internet. Le paradigme du centralisme s'est effacé au profit du distribué et l'idée d'un ordinateur central répondant bénévolement aux requêtes (responsables, toujours responsables) formulées (selon une syntaxe précise, toujours selon une syntaxe précise) par les citoyens parait désormais étrangement obsolète.

Pourtant, malgré sa désuétude, c'est pourtant ce modèle que Wolfram Alpha semble avoir choisi. WA, c'est le tout dernier bidule de recherche en date. Le pitch du bouzin, c'est d'essayer de piger ce que les utilisateur tapent dans la barre de recherche et de fournir non pas des sites y correspondant, mais des réponses contextualisées. L'idée est excellente, évidemment ; je suis plus perplexe sur le reste. Pour ma part, j'ai eu l'impression de revenir aux vieux jeux d'aventure textuels où les actions nécessitaient de trouver la bonne syntaxe. Quant aux résultats affichés, j'avoue qu'en voyant cette amoncellement de données (vitesse moyenne sur l'orbite, croissance du PIB, longueur des paires de bases, etc.), j'ai pensé à Albedo 0.39, une piste de Vangelis du milieu des 70's où une voix désincarnée égrène sur une musique tripante les paramètres orbitaux de la Terre...

OK, je suis injuste. Le site est plutôt chiadé avec ses nuances de gris et d'orange. Les données - pour geekes qu'elles soient - sont plutôt pertinentes. L'idée sous-jacente est prometteuse (valoriser les bases de données innombrables éparpillées aux quatre coins de la planète). Pourtant, je m'interroge un peu sur l'angle d'attaque de Wolfram, qui semble aborder la chose à la manière d'un Quid sur circuit intégré, comme si la seule chose qui avait changé depuis 1975, c'était la puissance de calcul et la capacité mémoire et qu'il s'agissait toujours d'aller interroger les bases d'un ordinateur central par l'intermédiaire d'une ligne de commande améliorée. Une sorte de web 0.5 à l'heure où le 3.0 se prépare, quoi. M'étonne pas que ça plaise aux geeks, tiens. Bref.

Je ne vous parlerais pas de tout ça s'il n'y avait un rapport avec WP. Alpha a été décrit comme un concurrent de Google et de Wikipédia. Outre que ça montre que WP est désormais le standard, cette deuxième comparaison n'est pas stupide. Parce qu'en fait, le trip de WA, c'est de sortir des infoboxes à la volée. Ce que fait le site, ce n'est ni plus ni moins que de la génération automatique d'articles à partir de données externes, suivant les indications fournies par l'utilisateur. Et il faut bien avouer qu'il le fait plutôt bien.

Tenez, prenez l'article wikipédien sur l'astéroïde (1001) Gaussia : une infobox, une ligne de texte et pas grand chose de plus. Regardez maintenant l'équivalent alphien : au bout du compte, c'est sensiblement identique (sauf que WA peut se permettre d'adapter le contenu à la date du jour et à la position de l'observateur). De façon plus caractéristique, un article WP sur le nombre 200 nécessite de tout écrire à la main ; sur WA, l'article est généré à la volée, ce qui est rudement plus efficace.

Alors, bien sûr, WA ne produit pas de contenu encyclopédique à proprement parler. Par contre, il a une capacité formidable pour les à-côté, tout ce qui serait mieux traité par une machine pillant des bases de données que par un contributeur humain. J'ignore la proportion de lecteurs de WP qui pourraient être captés par WA. Si ça se trouve, elle est importante.

Par contre, je regrette un peu que Wolfram ait choisi une approche aussi obsolète (même si je la comprends), comme si les données devaient forcément être rapatriées en interne et traitées par un comité dont on ne connait rien, bref comme si rien n'avait existé depuis 20 ans. Après tout, même si ce n'est pas intuitif, même si ce n'est pas satisfaisant pour un esprit porté sur la structure de la connaissance et la beauté de celle-ci, c'est bien les modèles de Google et de Wikipédia qui ont produit les meilleurs résultats en terme de mise à jour, de réactivité et d'efficacité. Et puis quand je vois le résultat pour Taiwan (oh purée, que vont dire les Chinois ?), je me dis que WA n'a peut-être pas pris conscience des problématiques révélées par WP en terme d'ambiguité ou de neutralité.

Pour finir, deux petits points. WA cite systématiquement ses sources en fin de page. Le truc, c'est qu'on ne sait pas très bien ce qui a été utilisé, ni à quel endroit. D'ailleurs, parmi les sources, on voit l'énigmatique mention de « The Wikimedia Foundation, Inc. Wikipedia. 2009 » ; je me demande si c'est bien GFDL, tout ça... Le deuxième truc, c'est que les articles wikipédiens anglais et français sont nazes et demandent à être améliorés.

samedi 16 mai 2009

Flicage en règle (mais joli)

C'est Otourly qui a vendu la mêche sur le Bistro : il a été conçu un nouveau compteur d'édition tout beau, avec plein de graphiques superfétatoires, des histogrammes, des camemberts, des subdivisions par jours, par heure, bref. Le truc super à mettre en fond d'écran.

D'ailleurs, si vous voulez jeter un œil sur mes 10 000 dernière contributions, c'est ici. Vous pourrez constater que j'ai surtout contribué en semaine, l'après-midi.

Ce compteur fait partie du site WikiChecker, que je ne connaissais pas (mais qui, certainement, doit traîner dans le coin depuis un bon bout de temps), et qui regroupe tout un tas de stats sur Wikipédia avant des les afficher de façon agréable aux yeux.

mercredi 13 mai 2009

Communauté

Quand j'ai commencé ce blog à la fin 2007, il n'y avait pas beaucoup d'autres blogs francophones traitant exclusivement de Wikipédia. Je m'en étais d'ailleurs ému et je crois bien que seul existait {{référence nécessaire}}, et il n'était pas mis à jour souvent (je ne parle pas, bien sûr, des blogs pathologiques).

Je m'en suis souvenu car le Chroniqueur tente actuellement de recenser les blogs (ou assimilés) qui parlent de Wikipédia. Ce qui est intéressant, c'est que ça s'est débloqué au cours de l'année 2008. Et puis il y a le Planet, maintenant (je me souviens d'une version antérieure, non agréée par Wikimedia, qui incluait les blogs d'autres contributeurs, pas forcément ciblés sur l'encyclopédie ; il y avait même les flux Flickr de certains, et c'était parfois dur à suivre). Et puis on trouve plein de monde sur Twitter, de nos jours. Je me trompe peut-être, mais j'ai comme l'impression que Wikipédia a débordé de son site pour s'étendre à côté dans une débauche de web 2.0. Bref.

J'aime bien toute cette petite communauté, moi.

mardi 12 mai 2009

Saint-Pouilleux-sur-Binouze

Quelques petites choses à savoir quand on rédige un article sur une localité :
  • Le blason doit figurer tout en haut de l'article, de préférence en 400 pixels de large. Si un drapeau est trouvable, il convient de l'inclure également. Afficher un sceau est aussi une bonne idée. Le caractère officiel de ces armoiries n'a aucune importance. Il est judicieux de prévoir un paragraphe entier pour expliciter tout le bazar, avec l'emploi de termes d'héraldiques ad-hoc que personne ne comprend ; ce paragraphe doit être placé juste après l'introduction.
  • L'introduction doit mentionner le nom de la localité dans l'intégralité des langues s'étant succédées sur son territoire depuis la chute de l'Empire romain. Il est possible d'y ajouter les dénominations dans des langues qui n'y ont pas vraiment été parlé, du moment qu'elles le furent pas trop loin. Ou même si ça fait cool de les mettre. De façon générale, aucune localité ne possède de nom en français (en tout cas, pas de vrai nom) : Wikipédia doit faire état de ce point de toponymie.
  • Le nom des habitants est l'information la plus importante.
  • Parmi les informations d'une importance moindre mais quand même fondamentale, on peut citer le nombre de fleurs pour les villes fleuries, le nombre d'arobases pour les villes internet ou les plus beaux villages de France.
  • Tout le reste (histoire, administration, etc.) est relativement ennuyeux. On peut le caser après le sommaire, histoire de dégager la vue pour les infos fondamentales.

lundi 11 mai 2009

Il faut savoir tenir sa place

L'autre jour, j'ai pris une photo interdite. Je n'avais pas le droit, mais je l'ai fait quand même.

Pour des raisons diverses, je descendais les Maréchaux, à Paris, peu après la porte de Charenton. À cet endroit, sur deux bons kilomètres, la ville prend une tournure fortement industrielle et les boulevards longent la friche de la Petite Ceinture. Je me suis arrêté pour prendre une photo des voies parce que l'endroit est photogénique (je me balade tout le temps avec un petit appareil photo dans mon sac). À ce moment là, la personne qui marchait derrière moi est venu me voir et m'a dit en gros : « c'est interdit de prendre des photos, vous n'avez pas le droit ». Je n'ai pas cédé : j'avais les pieds fermement posés sur la voie publique et j'ai exprimé mon intention de continuer. Après quelques remontrances supplémentaires, la personne a continué son chemin. Je l'ai regardé s'en aller en me demandant ce qui pouvait bien pousser une personne inconnue à se déporter de son trajet pour m'interdire de photographier un lieu auquel elle n'est à l'évidence pas liée de quelque manière.

Ce jour là, je n'ai pas cédé parce que nous étions seuls ; en général, je fais attention à ce que je photographie, même quand je sais en avoir parfaitement le droit. J'habite à Paris, une ville dont je peux dire sans me tromper qu'elle reçoit une quantité de touristes proprement énorme. Pourtant, pour une ville aussi touristique, elle est bien peu encline à se faire prendre le portrait au numérique. Mes pas m'amenant souvent dans des lieux hors des circuits touristiques, j'ai souvent constaté l'incompréhension, voire l'hostilité des passants vis-à-vis de mon appareil photo (je prends soin de ne jamais prendre de gens en photo, j'ai réellement peur de leur réaction). Et même si on ne m'a quasiment jamais interdit explicitement de prendre des photos, j'ai déjà affronté des regards mauvais, voire des murmures de mépris. Pourtant, je suis quasiment sûr que j'ai le droit de photographier presque tout ce que vois (je ne parle que de l'acte photographique, bien sûr, pas de la diffusion ultérieure des clichés).

En fait, je sais pertinemment quel est le problème : je ne respecte pas ma place. Il y a les choses que l'esprit collectif accepte, il y a celles qu'il réprouve, et cela dépend de la personne qui tente de les faire. Et, surtout, tout ça n'a strictement rien à voir avec un quelconque droit légal. Bref, un touriste a le droit de prendre la tour Eiffel en photo parce qu'il est à sa place en le faisant. Un Parisien, beaucoup moins. Et moi, je n'ai pas le droit de me balader dans Paris en prenant des photos à tout bout de champ : ça ne se fait pas. J'en aurais le droit si j'étais un professionnel (un vrai photographe muni de l'attirail alloué à sa profession, par exemple). Ce n'est pas rationnel, ce n'est pas logique, ce n'est même pas juste : c'est juste comme ça. Avoir le droit de faire quelque chose ne donne pas forcément le droit de le faire.

Bon, pourquoi je vous parle de ça, moi ? Tandis que je regardais mon gardien du temple improvisé s'éloigner sur le boulevard Poniatowski, j'étais en train de penser à Wikipédia. À la difficulté qu'on a à faire admettre que tout le monde peut venir et modifier n'importe quoi. Que ça sera très difficile pour changer les mentalités, qu'il faudra travailler au corps, longtemps.

Parce que, non, tout le monde n'a pas le droit de contribuer à Wikipédia : les gens ordinaires n'ont pas le droit de s'exprimer sur un sujet encyclopédique, c'est un privilège réservé à ceux qui ont acquis le droit de le faire (universitaires avec une barbe, hommes politiques, membres du star-system invités à la télé, etc.). C'est quelque chose d'ancré dans le subconscient collectif. Aller à l'encontre de cette règle, c'est s'exposer au ridicule, au mépris, à la colère. Vous voulez organiser la connaissance ? Mais pour qui vous prenez-vous ?

Il est possible de vaincre cette vision des choses, mais ce sera long. Il faudra accepter que Wikipédia rencontre une opposition qui n'a rien de rationnel, en dehors de tout intérêt politique ou économique ou culturel : une opposition de principe, parce qu'elle n'est pas à sa place. Avec un peu de temps, il sera possible de faire admettre que la chose est possible, le temps d'effacer les blocages ; un peu comme la diffusion généralisée des appareils photos numériques me permettra, un jour, de prendre des photos plus librement.

De toute façon, si vous voulez savoir, mes photos étaient ratées.

dimanche 10 mai 2009

Vive la Bretagne

Je n'ai pas été très rapide pour ça, mais je souhaite la bienvenue à Pymouss parmi la blogosphère wikipédienne francophone.

mardi 5 mai 2009

Un jour, quelqu'un créera une théorie cohérente du sourçage sur WP et je ne me poserai plus ce genre de questions

L'autre jour, je ne sais plus pourquoi, je suis allé consulter l'article anglais sur Home of the Underdogs, un ancien site d'abandonwares. Oui, c'est geek, j'assume.

Bref, le site n'était plus mis à jour depuis près de trois ans, et il est mort récemment suite à la faillite de l'hébergeur. Mais ce qui est intéressant, c'est que ce point est sourcé dans Wikipédia grâce à un message posté par la créatrice du site sur Twitter.

Alors, c'est de la bonne source ou pas ? :)

lundi 4 mai 2009

Combo breaker

Vu dans l'article anglais Up to eleven, au paragraphe « Usage in culture » :

« Episode 45 of the first season of Pokemon, "The Song of Jigglypuff," James from Team Rocket tells Ash to turn the amps jigglypuff is singing through up to 11. »

Culture geek + Pokémon = total roXXorz

(Et merci Erdrokan pour l'avoir remarqué. ;) )

dimanche 26 avril 2009

Génération automatique

Il y a quelques temps, j'ai décidé de voir ce qu'on pouvait rajouter facilement sur les communes de Suisse. J'ai récupéré deux-trois infos et compilé un tableau Excel avec les données ; à partir de ça, j'ai fait en sorte de générer automatiquement un article à la demande. Vous pouvez voir un exemple de ce que ça donne sur Fétigny, petite commune du canton de Fribourg : avant et après.

Dans l'absolu, je n'ai pas vraiment changé grand chose à l'article : je n'ai effectué aucun travail réellement intellectuel, me contentant de reproduire des données brutes et les affichant dans la bonne case. Pourtant, l'article a l'air nettement plus classe comme ça. Et surtout beaucoup moins vide.

J'ai choisi les communes de Suisse pour trois raisons : tout d'abord, il en existe un nombre conséquent sans pour autant faramineux (environ 2 600, autant d'articles). Ensuite, la plupart de leur article n'ont qu'une ligne de texte à part l'infobox. Pour finir, l'Office fédéral de statistique fournit gracieusement une palanquée de données à leur sujet. Dans le cadre de mon essai, je me suis contenté de récupérer l'historique de population et des modifications territoriales, la superficie, les données d'altitude et les coordonnées. J'aurais pu aller plus loin (pyramides des âges, emplois, langues parlées et j'en passe), mais je n'avais pas envie de tomber dans le TI (ni dans le pillage complet, d'ailleurs). Et puis je voulais que ça reste basique.

Ce que j'en retire ? Eh bien, qu'il est possible d'augmenter le facteur de cool d'un ensemble d'articles à peu de frais, et que ce boulot est faisable sans problème par des robots. Ensuite, qu'on ne dira jamais assez tout le bien de la mise à disposition gratuite d'infos de ce genre par les organismes nationaux (avant qu'un Français ne râle, je signale que l'INSEE et l'IGN le font aussi).

Ce qui est intéressant avec les communes de Suisse, c'est que chacune vient avec sa petite carte de localisation, qui indique ses limites territoriales et tout. Je ne sais pas d'où viennent les données qui ont produit ces cartes. En règle générale, celles-ci ne sont pas gratuites ou libres d'accès (ce que je peux comprendre dans l'absolu, même si ça ne nous arrange pas sur WP). L'IGN, par exemple, propose ces infos pour les communes de France mais elles coûtent 900 € et ne sont de toute façon pas réutilisables sur Wikipédia. C'est un peu le problème, d'ailleurs : je ne crois pas qu'il existe dans le monde entier une possibilité de réaliser une carte communale de la France d'une façon compatible avec l'esprit de WP ; en tout cas, pas simplement. C'est un peu dommage.

S'il y avait une leçon à tirer de tout cela, c'est à mon avis qu'il y a un intérêt à libérer ce type de données : ça permet à tout un chacun de prendre les initiatives qu'il veut pour faire ce qu'il a envie. Maintenant, je ne connais pas toute l'histoire. Je doute par exemple que mon intention de faire des p'tites cartes gratos pèse lourd quand il s'agit de décider du mode de financement de l'IGN (je parle de l'IGN, puisque c'est une institution de mon pays et que c'est celle que j'ai le plus en tête ; ça pourrait s'appliquer partout) et je reste quand même assez réaliste pour me dire que les choses sont plus complexes que le message simpliste habituel sur le sujet (en résumé : tout doit être libre, maintenant, tout de suite ; c'est louable, mais probablement pas faisable, et peut-être même pas souhaitable). Néanmoins, tout reste possible. Et si l'on souhaite qu'un jour se mette en place une politique plus ouverte sur ces sujets, il faudra venir avec des arguments un peu plus convaincants. Si les articles de Wikipédia sont bien rédigés, si on peut montrer ce qu'il a été possible de faire à partir de telles sources, ça pourrait être un bon exemple. Ça ne suffira pas, bien entendu, mais ça ne peut pas nuire.

Il me reste un bon paquet de communes de Suisse à traiter. S'il y a des amateurs, l'Allemagne possède plus de 12 000 communes, l'Espagne et l'Italie plus de 8 000. La plupart n'ont aucun article. Au boulot.

PS : Pierrot parle également de ce message sur son blog ici. Je le lie parce que c'est comme ça que doit fonctionner Internet. En plus, il a des trucs pertinents à dire.