mardi 20 octobre 2009

Mange mon chiffre !

Pour rebondir sur mon précédent post (zboïng !), je me demandais ce qui serait vraiment intéressant de calculer, si on avait la puissance de traitement adéquate. Une idée que j'avais : reprendre les principes de cette étude permettant de classer les articles par thèmes généraux. Mais le faire pour toutes les langues. Et pour tout l'historique. Ça aurait de la gueule.

Et vous, chers lecteurs, vous avez des idées ?

5 commentaires:

nojhan a dit…

* refaire la couverture thématique pour l'ensemble des langues,
* regarder le réseau formé par les catégories partagées dans toutes les langues (je parierais que ce ne sont pas des cats aussi haut niveau que ce qu'on attendrait),
* refaire la couverture thématique mais en utilisant la taille des articles plutôt que leur nombre,
* refaire pareil en utilisant le nombre de sections,
* refaire pareil en utilisant le nombre d'images
* refaire pareil en utilisant le nombre de liens
* refaire pareil en utilisant le nombre d'éditions
* refaire tout pareil mais la couverture thématique des conflits
* etc. etc. etc.
* chercher des corrélations dans tout ce gros bordel

En gros : (#articles, #mots, #caractères, #liens, #sections, #images, #éditions, #reverts, #intervenants_enregistrés, #visites) x 250 langues

Largement de quoi faire...

gribeco a dit…

En savoir plus sur qui ajoute du contenu significatif aux articles (les nouveaux ou les anciens ?)

Anonymous a dit…

Tu as ça sur www.nlgbase.org. Regarde http://www.nlgbase.org/fr/stat/stat_clust.html. Les stats sont mises pour FR, EN, ES.
C'est un proto. Les labels de classes sont ceux de la campagne ESTER.

Voilà !

A+

Poulpy a dit…

@nojhan : tant qu'on se limite à du calcul bête et méchant, c'est gros mais ça roule. Par contre, pour les corrélations, je sais pas faire. :)

@gribeco : tu aurais des idées de pistes permettant de mesurer ça ?

@Anonyme : ça a l'air intéressant, mais, euh... C'est quoi ?

Anonymous a dit…

@poulpy : oui, c'est pas vraiment orienté grand public :-). Donc des précisions.

Ce que c'est en résumé: une représentation statistique et sémantique de wikipédia EN, FR, ES (DE, PL et IT sont calculés mais non présentés, pas fini).

Pour comprendre en quoi ça répond à la question posée par toi:

La liste de la page http://www.nlgbase.org/fr/stat/stat_clust.html donne le nombre de fiches wikipédia FR pour chaque classe sémantique. Le libellé grossier des classes sémantiques est donné là http://www.nlgbase.org/info_tagrule.html (et le détail dans ça http://www.nlgbase.org/document/Conventions_EN_ESTER2_v01.pdf).

Ex. Sur FR :

loc.fac:19641, ça veut dire qu'il existe 19461 fiches sur des lieux de type construction humaine sur WP FR (immeubles, églises, palais, etc...)

org.non-profit:3573, ça veut dire qu'il existe 3573 fiches sur des organisations non commerciales (ONG, associations) sur WP.FR.

La manière dont c'est fait est dans les publi. Il y a donc là tout ce qui répond à la question de ton post, il faut juste qu'on rajoute une mise en forme plus "humaine" (si tu as des idées je suis preneur et je t'enverrais mon mail).

Voilà.

A+