dimanche 26 avril 2009

Génération automatique

Il y a quelques temps, j'ai décidé de voir ce qu'on pouvait rajouter facilement sur les communes de Suisse. J'ai récupéré deux-trois infos et compilé un tableau Excel avec les données ; à partir de ça, j'ai fait en sorte de générer automatiquement un article à la demande. Vous pouvez voir un exemple de ce que ça donne sur Fétigny, petite commune du canton de Fribourg : avant et après.

Dans l'absolu, je n'ai pas vraiment changé grand chose à l'article : je n'ai effectué aucun travail réellement intellectuel, me contentant de reproduire des données brutes et les affichant dans la bonne case. Pourtant, l'article a l'air nettement plus classe comme ça. Et surtout beaucoup moins vide.

J'ai choisi les communes de Suisse pour trois raisons : tout d'abord, il en existe un nombre conséquent sans pour autant faramineux (environ 2 600, autant d'articles). Ensuite, la plupart de leur article n'ont qu'une ligne de texte à part l'infobox. Pour finir, l'Office fédéral de statistique fournit gracieusement une palanquée de données à leur sujet. Dans le cadre de mon essai, je me suis contenté de récupérer l'historique de population et des modifications territoriales, la superficie, les données d'altitude et les coordonnées. J'aurais pu aller plus loin (pyramides des âges, emplois, langues parlées et j'en passe), mais je n'avais pas envie de tomber dans le TI (ni dans le pillage complet, d'ailleurs). Et puis je voulais que ça reste basique.

Ce que j'en retire ? Eh bien, qu'il est possible d'augmenter le facteur de cool d'un ensemble d'articles à peu de frais, et que ce boulot est faisable sans problème par des robots. Ensuite, qu'on ne dira jamais assez tout le bien de la mise à disposition gratuite d'infos de ce genre par les organismes nationaux (avant qu'un Français ne râle, je signale que l'INSEE et l'IGN le font aussi).

Ce qui est intéressant avec les communes de Suisse, c'est que chacune vient avec sa petite carte de localisation, qui indique ses limites territoriales et tout. Je ne sais pas d'où viennent les données qui ont produit ces cartes. En règle générale, celles-ci ne sont pas gratuites ou libres d'accès (ce que je peux comprendre dans l'absolu, même si ça ne nous arrange pas sur WP). L'IGN, par exemple, propose ces infos pour les communes de France mais elles coûtent 900 € et ne sont de toute façon pas réutilisables sur Wikipédia. C'est un peu le problème, d'ailleurs : je ne crois pas qu'il existe dans le monde entier une possibilité de réaliser une carte communale de la France d'une façon compatible avec l'esprit de WP ; en tout cas, pas simplement. C'est un peu dommage.

S'il y avait une leçon à tirer de tout cela, c'est à mon avis qu'il y a un intérêt à libérer ce type de données : ça permet à tout un chacun de prendre les initiatives qu'il veut pour faire ce qu'il a envie. Maintenant, je ne connais pas toute l'histoire. Je doute par exemple que mon intention de faire des p'tites cartes gratos pèse lourd quand il s'agit de décider du mode de financement de l'IGN (je parle de l'IGN, puisque c'est une institution de mon pays et que c'est celle que j'ai le plus en tête ; ça pourrait s'appliquer partout) et je reste quand même assez réaliste pour me dire que les choses sont plus complexes que le message simpliste habituel sur le sujet (en résumé : tout doit être libre, maintenant, tout de suite ; c'est louable, mais probablement pas faisable, et peut-être même pas souhaitable). Néanmoins, tout reste possible. Et si l'on souhaite qu'un jour se mette en place une politique plus ouverte sur ces sujets, il faudra venir avec des arguments un peu plus convaincants. Si les articles de Wikipédia sont bien rédigés, si on peut montrer ce qu'il a été possible de faire à partir de telles sources, ça pourrait être un bon exemple. Ça ne suffira pas, bien entendu, mais ça ne peut pas nuire.

Il me reste un bon paquet de communes de Suisse à traiter. S'il y a des amateurs, l'Allemagne possède plus de 12 000 communes, l'Espagne et l'Italie plus de 8 000. La plupart n'ont aucun article. Au boulot.

PS : Pierrot parle également de ce message sur son blog ici. Je le lie parce que c'est comme ça que doit fonctionner Internet. En plus, il a des trucs pertinents à dire.

12 commentaires:

darkoneko a dit…

sympathique tout ça :)

Pymouss a dit…

Qu'est-ce qu'on attend pour le lancer ce bot ?
Ce serait àmha, un minimum d'avoir une ébauche d'article sur les communes de tous les pays d'Europe.

Circeus a dit…

"je ne crois pas qu'il existe dans le monde entier une possibilité de réaliser une carte communale de la France d'une façon compatible avec l'esprit de WP ; en tout cas, pas simplement."

Tout dépend de ta définition de "facile", mais les données du cadastre Français, qui incluent les limites communales, sont en train d'être intégrée à OpenStreetMap (il a été déterminé par les autorités que c'était un usage autorisé), cf. cette carte de complétude: http://beta.letuffe.org/?zoom=11&lat=47.26818&lon=0.70578&layers=B000000000FFTFFFF

Manoillon a dit…

Pour les cartes des communes suisses, le coupable, c'est http://fr.wikipedia.org/wiki/Utilisateur:Schutz (je ne me souviens plus comment il avait fait ça).

darkoneko a dit…

@pymouss qui c'était occupé des communes italiennes/françaises déjà ? phe (bot Badmood) ?

Poulpy a dit…

@Circeus : C'est un sacré boulot qu'ils sont en train d'abattre, là. Je me demande s'il est possible de reprendre simplement les données afin de créer des cartes de communes (il me semble que la licence l'autorise). En plus, toutes les communes italiennes et néerlandaises sont cartographiées.

@Manoillon : c'est plutôt Tschubby, en fait. Mais je n'ai pas trouvé s'il cite ses sources.

@darkoneko : je crois me souvenir que c'est bien badmood qui s'en était chargé. À priori, il faudrait lui fournir les données, le modèle d'article et ça devrait pouvoir se faire.

@Pymouss : dès que possible. :)

darkoneko a dit…

J'en ai touché un mot a Phe, et selon lui c'est DasBot qui s'est occupé de la création automlatique des communes française (auteur pour les italiennes inconnu)

Schutz a dit…

Manoillon, Poulpy: y'a un travail d'équipe dans tout ça :-)

Toutes les données cartographiques suisses sont libres si leur précision est réduite à moins de 100 mètres, largement suffisant pour faire les petites cartes -- et encore, 100m de précision, c'est moi qui le leur ai suggéré et ils ont dit ok tout de suite; d'après mon interprétation de la loi, on devrait pouvoir descendre à 50m sans trop de problème (voire 30m avec négociation serrée et discussions techniques).

Et Wikimédia CH a dépensé les 110 CHF nécessaires pour acquérir tous les contours (vectoriels) des communes suisses, dont il nous faut juste réduire la précision.

Une bonne partie des cartes actuelles a été faite en copiant d'autres cartes, mais on a un projet pour les refaire (en SVG si possible) avec les données vectorielles originales (avec la bonne précision pour que ce soit libre).

Dans tous les cas, vivement l'intégration avec Openstreetmap -- ça permettra à chacun de se concentrer sur

Schutz a dit…

Pardon, coupure à la fin:

Dans tous les cas, vivement l'intégration avec Openstreetmap -- ça permettra à chaque projet de se concentrer sur ses points forts, et nous évitera de devoir dupliquer l'information.

Circeus a dit…

@Poulpy. Je ne sais pas quelles licences exactement sont possibles pour des cartes tirées du cadastre (je n'ai suivi le débat que de très loin), et je ne sais donc pas si ces cartes serait disponibles pour fr: ou Commons.

@Schutz "vivement l'intégration avec Openstreetmap" ça c'est bien vrai. Y'a pas moyen de mettre sur Commons ou en: une carte tirée d'OSM sans se faire tapocher à coup de de modèles qui répète en substance "Z'ÊTES PAS AU COURANT? FAUT QU'CE SOIT EN VECTEUR?!?!!!".

Albin a dit…

Les outils de création automatique d'articles dans Wikipédia mériteraient d'être développés.

En 2005, j'étais parti d'un tableau Excel rassemblant des données sur les produits phytosanitaires, pour créer avec un traitement de texte une centaine d'articles.

Voir par exemple : http://fr.wikipedia.org/w/index.php?title=Alachlore&oldid=2820183.

Il y a sûrement moyen de faire mieux, et de générer un grand nombre d'articles utiles en agrégeant des données dispersées, tout en construisant des phrases en bon français.

La difficulté n'est pas seulement de rassembler de bonnes données. Tout le monde ne maîtrise pas la création de publipostages (ou de fonctions analogues) dans les traitements de texte.

Anonyme a dit…
Ce commentaire a été supprimé par un administrateur du blog.