Nettoyer ses données avec OpenRefine
14h-16h30, Lilliad
Les données que nous collectons dans le cadre de nos recherches sont souvent éparpillées, multi-formes, et sont rarement organisées de la façon qui nous convient le mieux. OpenRefine est un logiciel libre d'aide à la manipulation et à la transformation des données, qui est particulièrement utile pour nettoyer, harmoniser, transformer et réorganiser vos données. Il permet de naviguer facilement parmi des milliers de données grâce à un système de filtres et de facettes, et vous permet d'avoir rapidement un aperçu de l'ensemble de votre jeu de donnée. OpenRefine permet de faire assez facilement des transformations complexes sur les données elles-mêmes, mais également sur leur agencement et leur présentation. Enfin, cet outil propose un système d'historique et de favoris qui vous permet à tout moment de revenir en arrière, ou de garder en mémoire des suites de transformations complexes que vous serez amenez à refaire fréquemment.
Programme de l'atelier :
- Comment importer un jeu de données dans OpenRefine, et naviguer parmi ces données;
- Comment faire des transformations, des plus simples au plus complexe, à toutes nos données ou seulement à celles remplissant un ensemble de critères;
- Comment harmoniser des données de forme disparates, en utilisant notamment l'outil de "clustering" (regroupement de données) d'OpenRefine;
- Enfin, nous essaierons de mettre tout cela en pratique, à l'aide d'exercices sur des exemples de données réelles.
Pré-requis :
- Il est préférable de télécharger la dernière version d'OpenRefine avant l'atelier: https://openrefine.org/download
- si vous avez des exemples de jeux de données à nettoyer ou à transformer, amenez-les ! Il peut s'agir de tableurs au format .xls, .csv, .ods, de fichiers JSON ou XML, ou de simples fichiers textes.