dimanche 26 avril 2009

Génération automatique

Il y a quelques temps, j'ai décidé de voir ce qu'on pouvait rajouter facilement sur les communes de Suisse. J'ai récupéré deux-trois infos et compilé un tableau Excel avec les données ; à partir de ça, j'ai fait en sorte de générer automatiquement un article à la demande. Vous pouvez voir un exemple de ce que ça donne sur Fétigny, petite commune du canton de Fribourg : avant et après.

Dans l'absolu, je n'ai pas vraiment changé grand chose à l'article : je n'ai effectué aucun travail réellement intellectuel, me contentant de reproduire des données brutes et les affichant dans la bonne case. Pourtant, l'article a l'air nettement plus classe comme ça. Et surtout beaucoup moins vide.

J'ai choisi les communes de Suisse pour trois raisons : tout d'abord, il en existe un nombre conséquent sans pour autant faramineux (environ 2 600, autant d'articles). Ensuite, la plupart de leur article n'ont qu'une ligne de texte à part l'infobox. Pour finir, l'Office fédéral de statistique fournit gracieusement une palanquée de données à leur sujet. Dans le cadre de mon essai, je me suis contenté de récupérer l'historique de population et des modifications territoriales, la superficie, les données d'altitude et les coordonnées. J'aurais pu aller plus loin (pyramides des âges, emplois, langues parlées et j'en passe), mais je n'avais pas envie de tomber dans le TI (ni dans le pillage complet, d'ailleurs). Et puis je voulais que ça reste basique.

Ce que j'en retire ? Eh bien, qu'il est possible d'augmenter le facteur de cool d'un ensemble d'articles à peu de frais, et que ce boulot est faisable sans problème par des robots. Ensuite, qu'on ne dira jamais assez tout le bien de la mise à disposition gratuite d'infos de ce genre par les organismes nationaux (avant qu'un Français ne râle, je signale que l'INSEE et l'IGN le font aussi).

Ce qui est intéressant avec les communes de Suisse, c'est que chacune vient avec sa petite carte de localisation, qui indique ses limites territoriales et tout. Je ne sais pas d'où viennent les données qui ont produit ces cartes. En règle générale, celles-ci ne sont pas gratuites ou libres d'accès (ce que je peux comprendre dans l'absolu, même si ça ne nous arrange pas sur WP). L'IGN, par exemple, propose ces infos pour les communes de France mais elles coûtent 900 € et ne sont de toute façon pas réutilisables sur Wikipédia. C'est un peu le problème, d'ailleurs : je ne crois pas qu'il existe dans le monde entier une possibilité de réaliser une carte communale de la France d'une façon compatible avec l'esprit de WP ; en tout cas, pas simplement. C'est un peu dommage.

S'il y avait une leçon à tirer de tout cela, c'est à mon avis qu'il y a un intérêt à libérer ce type de données : ça permet à tout un chacun de prendre les initiatives qu'il veut pour faire ce qu'il a envie. Maintenant, je ne connais pas toute l'histoire. Je doute par exemple que mon intention de faire des p'tites cartes gratos pèse lourd quand il s'agit de décider du mode de financement de l'IGN (je parle de l'IGN, puisque c'est une institution de mon pays et que c'est celle que j'ai le plus en tête ; ça pourrait s'appliquer partout) et je reste quand même assez réaliste pour me dire que les choses sont plus complexes que le message simpliste habituel sur le sujet (en résumé : tout doit être libre, maintenant, tout de suite ; c'est louable, mais probablement pas faisable, et peut-être même pas souhaitable). Néanmoins, tout reste possible. Et si l'on souhaite qu'un jour se mette en place une politique plus ouverte sur ces sujets, il faudra venir avec des arguments un peu plus convaincants. Si les articles de Wikipédia sont bien rédigés, si on peut montrer ce qu'il a été possible de faire à partir de telles sources, ça pourrait être un bon exemple. Ça ne suffira pas, bien entendu, mais ça ne peut pas nuire.

Il me reste un bon paquet de communes de Suisse à traiter. S'il y a des amateurs, l'Allemagne possède plus de 12 000 communes, l'Espagne et l'Italie plus de 8 000. La plupart n'ont aucun article. Au boulot.

PS : Pierrot parle également de ce message sur son blog ici. Je le lie parce que c'est comme ça que doit fonctionner Internet. En plus, il a des trucs pertinents à dire.

mardi 21 avril 2009

Cartographie par secteur d'activité

Via Infodisiac, j'apprends l'existence d'une étude (en anglais et en pdf) sur la distribution des sujets dans Wikipedia, à travers l'examen de l'arbre des catégories. Il semblerait que près du tiers des articles se raccroche d'une façon ou d'une autre au sujet général « Culture and the Arts ».

L'étude applique cette méthode à la distribution des conflits par sujets. Dans cette approche, religion et philosophie sont les principaux champs de bataille, ces deux sujets possédant un taux de conflit disproportionné par rapport à leur importance dans en:.

Ça semble intéressant et à creuser.

vendredi 10 avril 2009

Apocryphe

C'est un article que j'ai vu passer sur le Bistro d'hier qui m'y a fait penser. L'article s'intitule « les étudiants de la génération Wikipedia sont paresseux » et dit, en gros, que selon les profs, les étudiants sont des fumistes qui s'attendent à ce que tout leur tombe tout cuit dans le bec et que c'est la faute d'Internet (bon, ok, je résume).

Bon, les étudiants sont des imbéciles immatures, tout le monde le sait (soyons honnête, ce n'est pas exactement ce que l'étude citée raconte, même si c'est tout de même ce que l'article sous-entend) : c'est un lieu-commun. C'est bien entendu un gros fantasme qui permet d'éviter de se dire que les temps changent.

Cet épisode m'a rappelé un texte sur lequel j'étais tombé peu de temps après mes débuts sur Internet. Un texte qui donne quatre citations sur la décadence de la jeunesse, avant de signaler qu'elles ont toutes plus de 2 000 ans. Vous pouvez en trouver une copie ici. C'est percutant, bien vu et probablement du pipeau intégral.

Prenez la prétendue citation de Socrate :

« Notre jeunesse [...] est mal élevée, elle se moque de l'autorité et n'a aucune espèce de respect pour les anciens. Nos enfants d'aujourd'hui [...] ne se lèvent pas quand un vieillard entre dans la pièce, ils répondent à leurs parents et bavardent au lieu de travailler. Ils sont tout simplement mauvais. »

Bon, si c'est Socrate, ça vient presqu'à coup sûr d'un texte de Platon. Et si ça vient de Platon, c'est trouvable sur Internet. Premier problème : l'omniscient Google, lorsqu'on lui demande de chercher une partie de ce texte, ne semble renvoyer que des liens vers ces quatre citations. Déjà, c'est plus que louche. Peut-être est-ce une traduction alternative ? Avec des termes clés, les résultats ne sont pas plus significatifs.

À ce moment là, j'ai besoin de restreindre la cible. Justement, Wikisource me fournit la quasi-totalité des œuvres de Platon directement en texte : il est très facile de faire des recherches dessus. Chou blanc à nouveau. Même La République ne contient pas la citation, et pourtant elle possède son content de conneries.

J'abandonne donc la recherche ; si quelqu'un est plus informé que moi, je suis preneur.

En tout cas, j'aurais passé une dizaine de minutes à faire usage des moyens informatiques actuels et abandonné dès qu'il aura fallu pousser plus loin. C'est totalement le cadre de l'article, mais je pense néanmoins que c'est à côté de la plaque.

jeudi 9 avril 2009

Petit délire mathématique

Articles de Wikipédia portant le nom d'une fraction, par valeur croissante :
Et il y a même 0/0, ce qui prouve que Wikipédia peut tout.

mercredi 8 avril 2009

Laguiole, son village, son fromage, son couteau...

« Je me suis déjà exprimé pour dire qu'à propos des fromages, je trouvais très lourd de faire des pages distinctes pour, d'une part le fromage, et d'autre part le village qui lui a donné son nom. Le fromage peut être décrit comme une spécialité du village. Mais avec Laguiole, on atteint des sommets: un article pour le canton, et un article pour le couteau. Stop! Ne peut-on pas regrouper tout ça ? Le canton peut être décrit dans l'article de la commune, comme c'est fait habituellement, et le couteau est une spécialité locale, à côté du fromage. Ca fera un article bien consistant, mieux que cette dispersion à mon avis bien exagérée... » (Phido, le 12 novembre 2003 sur la page de discussion de l'article en question dans ce passage)

Résultat en 2009 :
Phido, j'espère que tu as été convaincu depuis. :)

mardi 7 avril 2009

Tout ça vient de loin

Il y a un peu plus d'une vingtaine d'années, lorsque l'informatique était encore un hobby complexe et les modems des périphériques sans utilité réelle pour le tout venant, l'un de mes oncles avait tenté d'écrire une sorte d'encyclopédie informatique sur le système solaire. Je m'en suis souvenu l'autre jour en me baladant sur l'article sur le Soleil. Mon oncle (qui était encore adolescent mais que les nettes tendances pédagogiques conduiront à devenir prof par la suite) avait combiné des textes, des schématiques et des liens entre les sujets (je crois qu'il avait été inspiré par HyperCard). Ses études avaient porté un coup d'arrêt à son projet, mais j'avais été raisonnablement impressionné à l'époque. Comme beaucoup de gosses, j'avais à ma disposition quelques bouquins d'astronomie (parfois contradictoires, je m'en suis rendu compte assez vite) mais son idée apportait un plus : la navigation. Et puis on pouvait rajouter les informations nous-mêmes (à condition de les taper en dur dans le code).

En 1995, j'ai commencé à utiliser Internet. Plusieurs personnes avaient déjà utilisé le média dans une optique encyclopédique sur le sujet du système solaire. Le site The Nine Planets, par exemple, contient alors plus d'infos que je n'avais jamais réussi à en trouver en un même endroit (et des liens vers d'autres trucs intéressants en plus !)

En 2009, Wikipédia contient des articles sur chaque caillou qui tourne autour du Soleil, pour peu qu'il soit légèrement intéressant. La quantité d'informations dépasse tout ce que j'ai jamais pu trouver sur le sujet dans le domaine de la vulgarisation. Pourtant, je me dis fréquemment qu'il doit être possible de faire encore mieux. Et assez facilement, en plus.

Je repense à la dizaine de kilo-octets rédigés par mon oncle sur une disquette 5" ¼. Tout était déjà là, en fait : il suffisait juste d'assembler les éléments dans le bon ordre.

dimanche 5 avril 2009

Punition

Je ne dois pas m'énerver et dire n'importe quoi sur le Bistro.
Je ne dois pas m'énerver et dire n'importe quoi sur le Bistro.
Je ne dois pas m'énerver et dire n'importe quoi sur le Bistro.
Je ne dois pas m'énerver et dire n'importe quoi sur le Bistro.
Je ne dois pas m'énerver et dire n'importe quoi sur le Bistro.
Je ne dois pas m'énerver et dire n'importe quoi sur le Bistro.
Je ne dois pas m'énerver et dire n'importe quoi sur le Bistro.
Je ne dois pas m'énerver et dire n'importe quoi sur le Bistro.
Je ne dois pas m'énerver et dire n'importe quoi sur le Bistro.
Je ne dois pas m'énerver et dire n'importe quoi sur le Bistro.