Back to
Événements
Publié le
Mercredi 08 Juin 2016
Lundi 13 Juin 2016
12h30 à 14h00
Plus précisément, quatre principes président au projet Widukind : des données déchargées directement sur le site de l'institut de statistiques, aussi fidèles que possible aux originales (pas d'harmonisation) ; une conservation de la hiérarchie des données conforme au fournisseur (arbre de recherche identique) ; des données automatiquement mises à jour à l'aide de fonctions adaptées à l'institut de statistiques ; un archivage des données à chaque révision (même si les fournisseurs ne le font pas).

Un site web existe désormais et présente différents systèmes de recherche en fonction des besoins de l’utilisateur parmi les données de l’INSEE, d’Eurostat, de la BCE, du FMI, de la Banque Mondiale, de la Réserve Fédérale (US), de la BRI, de l’ESRI (Japon), de l’OCDE et du BEA (US).

Développé par le CEPREMAP, en partenariat avec France Stratégie, ce projet bénéficie d’un financement dans le cadre du Programme d’Investissement d’Avenir.

Réponse souhaitée avant le 9 juin 2016 : patricia.germain@strategie.gouv.fr

Plus d’informations sur le projet Widukind

En partenariat avec

logo-cepremap.png
Type d'image: 
Libre

logo-cepremap.png, par fcausse

 

Compte rendu

De quoi Widukind est-il le nom ? D’abord d’un chef de guerre du VIIIe siècle entré dans la légende pour avoir (notamment) unifié les Saxons. Ensuite et par analogie, d’une plateforme offrant un accès libre et unique à des millions de données, sinon dispersées sur les sites des institutions qui produisent de la statistique nationale et internationale. Décryptage du projet avec Thomas Brand, chercheur au Cepremap, venu présenter la V1 du site à l’occasion d’une présentation organisée à France Stratégie le 13 juin 2016.

Aux origines du projet

Le projet Widukind naît d’un constat en deux temps. Le premier est expérientiel : le travail de collecte de données est chronophage. « Un tel outil m’aurait fait gagner beaucoup de temps lorsque j’étais à France Stratégie », nous dit typiquement Thomas Brand. Le deuxième monte en généralité avec la prise de conscience que ce besoin est partagé au-delà du cercle académique. Par les entreprises et les administrations publiques qui produisent des tableaux de bord et des indicateurs de conjonctures, mais aussi par les data-journalistes et plus largement la société civile, à l’heure du fact-checking. Le travail d’élaboration de la plateforme est dès lors guidé par une triple exigence : simplifier la recherche de données, automatiser leur mise à jour et enfin rendre les résultats reproductibles. Avec un partenariat France Stratégie et un cofinancement du Programme d’investissement d’avenir (PIA), le projet Widukind est lancé et la version 1 du site voit le jour en juin 2016.

widuking.jpg

Type d'image: 
Libre
widuking.jpg, par fcausse

 

70 millions de séries dans une base unique

Concrètement comment ça marche ? Les données sont déchargées directement à partir du site de l’institut statistique qui les produit, sans harmonisation et en conservant leur arborescence ; elles sont mises à jour en temps réel et chaque révision est archivée. Gain pour l’utilisateur : la possibilité de télécharger gratuitement, à partir d’un site internet unique, les données économiques publiques publiées par les principaux organismes producteurs de statistiques (instituts nationaux de statistiques, Banques centrales) et internationaux (Banque mondiale, FMI, OCDE, Eurostat, BCE…). Le site permet déjà d’accéder à plus de soixante-dix millions de séries provenant de dix institutions et il continue d’étendre sa couverture au rythme de deux sources par mois (l’ONU et le BIT sont par exemple dans les tuyaux). Une quête d’exhaustivité qui demande une amélioration continue de la performance informatique de la plateforme.

En termes de navigation, l’utilisateur peut réaliser des requêtes par mots clés, en langage naturel ou en naviguant dans la structure des données de l’institut. Il peut télécharger des groupes complets de données simultanément (en clair faire des tableaux statistiques), depuis sa session de recherche sur serveur Web en formats standards ou depuis un logiciel de traitement statistique et économétrique à l’aide d’une API. Enfin, le projet est entièrement open source : tous les codes nécessaires pour le fonctionnement du serveur et le rapatriement des données sont disponibles sur GitHub.

Un hackathon en perspective

Prochaines étapes pour Widukind : trouver de nouveaux financements (où l’on retombe sur la question du modèle économique du logiciel libre), créer un forum pour engager la conversation avec les utilisateurs, prévoir une notice d’utilisation pour néophytes recensant les sigles et les adresses des institutions statistiques, étendre son réseau en direction notamment des acteurs de la société civile souhaitant exercer leur droit de regard sur les comptes publics… et la possible organisation d’un hackathon, projet collaboratif par excellence, en phase avec son objet : fournir un accès libre et simplifié à toute la donnée économique publique.