lundi 18 mai 2009

Wolfram Alpha

Quand j'étais plus jeune, je me rappelle les anciens clichés de science-fiction où les protagonistes demandaient qui désiraient des informations sur un sujet, se tournaient vers l'Ordinateur central. Celui-ci retournait une suite de données générales, une déferlante de nombres à l'utilité douteuse mais que les héros, invariablement, réussissaient à interpréter pour poursuivre leurs aventures.

Bien entendu, le concept a été globalement atomisé par le développement d'Internet. Le paradigme du centralisme s'est effacé au profit du distribué et l'idée d'un ordinateur central répondant bénévolement aux requêtes (responsables, toujours responsables) formulées (selon une syntaxe précise, toujours selon une syntaxe précise) par les citoyens parait désormais étrangement obsolète.

Pourtant, malgré sa désuétude, c'est pourtant ce modèle que Wolfram Alpha semble avoir choisi. WA, c'est le tout dernier bidule de recherche en date. Le pitch du bouzin, c'est d'essayer de piger ce que les utilisateur tapent dans la barre de recherche et de fournir non pas des sites y correspondant, mais des réponses contextualisées. L'idée est excellente, évidemment ; je suis plus perplexe sur le reste. Pour ma part, j'ai eu l'impression de revenir aux vieux jeux d'aventure textuels où les actions nécessitaient de trouver la bonne syntaxe. Quant aux résultats affichés, j'avoue qu'en voyant cette amoncellement de données (vitesse moyenne sur l'orbite, croissance du PIB, longueur des paires de bases, etc.), j'ai pensé à Albedo 0.39, une piste de Vangelis du milieu des 70's où une voix désincarnée égrène sur une musique tripante les paramètres orbitaux de la Terre...

OK, je suis injuste. Le site est plutôt chiadé avec ses nuances de gris et d'orange. Les données - pour geekes qu'elles soient - sont plutôt pertinentes. L'idée sous-jacente est prometteuse (valoriser les bases de données innombrables éparpillées aux quatre coins de la planète). Pourtant, je m'interroge un peu sur l'angle d'attaque de Wolfram, qui semble aborder la chose à la manière d'un Quid sur circuit intégré, comme si la seule chose qui avait changé depuis 1975, c'était la puissance de calcul et la capacité mémoire et qu'il s'agissait toujours d'aller interroger les bases d'un ordinateur central par l'intermédiaire d'une ligne de commande améliorée. Une sorte de web 0.5 à l'heure où le 3.0 se prépare, quoi. M'étonne pas que ça plaise aux geeks, tiens. Bref.

Je ne vous parlerais pas de tout ça s'il n'y avait un rapport avec WP. Alpha a été décrit comme un concurrent de Google et de Wikipédia. Outre que ça montre que WP est désormais le standard, cette deuxième comparaison n'est pas stupide. Parce qu'en fait, le trip de WA, c'est de sortir des infoboxes à la volée. Ce que fait le site, ce n'est ni plus ni moins que de la génération automatique d'articles à partir de données externes, suivant les indications fournies par l'utilisateur. Et il faut bien avouer qu'il le fait plutôt bien.

Tenez, prenez l'article wikipédien sur l'astéroïde (1001) Gaussia : une infobox, une ligne de texte et pas grand chose de plus. Regardez maintenant l'équivalent alphien : au bout du compte, c'est sensiblement identique (sauf que WA peut se permettre d'adapter le contenu à la date du jour et à la position de l'observateur). De façon plus caractéristique, un article WP sur le nombre 200 nécessite de tout écrire à la main ; sur WA, l'article est généré à la volée, ce qui est rudement plus efficace.

Alors, bien sûr, WA ne produit pas de contenu encyclopédique à proprement parler. Par contre, il a une capacité formidable pour les à-côté, tout ce qui serait mieux traité par une machine pillant des bases de données que par un contributeur humain. J'ignore la proportion de lecteurs de WP qui pourraient être captés par WA. Si ça se trouve, elle est importante.

Par contre, je regrette un peu que Wolfram ait choisi une approche aussi obsolète (même si je la comprends), comme si les données devaient forcément être rapatriées en interne et traitées par un comité dont on ne connait rien, bref comme si rien n'avait existé depuis 20 ans. Après tout, même si ce n'est pas intuitif, même si ce n'est pas satisfaisant pour un esprit porté sur la structure de la connaissance et la beauté de celle-ci, c'est bien les modèles de Google et de Wikipédia qui ont produit les meilleurs résultats en terme de mise à jour, de réactivité et d'efficacité. Et puis quand je vois le résultat pour Taiwan (oh purée, que vont dire les Chinois ?), je me dis que WA n'a peut-être pas pris conscience des problématiques révélées par WP en terme d'ambiguité ou de neutralité.

Pour finir, deux petits points. WA cite systématiquement ses sources en fin de page. Le truc, c'est qu'on ne sait pas très bien ce qui a été utilisé, ni à quel endroit. D'ailleurs, parmi les sources, on voit l'énigmatique mention de « The Wikimedia Foundation, Inc. Wikipedia. 2009 » ; je me demande si c'est bien GFDL, tout ça... Le deuxième truc, c'est que les articles wikipédiens anglais et français sont nazes et demandent à être améliorés.

2 commentaires:

Maurilbert a dit…

Mais voyons, Poulpy, la solution est simple... interroge WA sur lui-même, et copie/colle la réponse sur WP. Et les sources ? Comme sur la piquette en cubi de 4 L, "sélection de sources de différentes origines".

nojhan a dit…

La GFDL ne peut que couvrir ce qui est le produit original de l'imagination humaine.

Les données, quelle que soit leur provenance, ne peuvent être couvertes par le droit d'auteur.

Par contre, le droit français a une exception concernant les bases de données... à mon avis peu applicable dans le cas précis de Wikipédia.