Le stockage et le dépôt de données sont deux choses distinctes : tandis que le stockage concerne le moment où les données sont collectées et traitées, le dépôt intervient dans une démarche de préservation, de partage et de diffusion qui permettra d’établir un lien entre les données et les publications. Le dépôt des données est ainsi un gage de transparence et de reproductibilité de la recherche.
Quelles données ouvrir ?
- Les lois pour une République numérique et Valter ont instauré le principe de l’ouverture “par défaut “ des données publiques
- L’ouverture est obligatoire pour les données géographiques et environnementales (depuis la directive INSPIRE)
- En revanche leur communication est interdite pour les données concernant le secret défense, le secret professionnel, la protection des personnes, la santé publique, et l’ordre public
- Leur diffusion est soumise à condition pour les cas particulier des données personnelles
Les données déposées dans un entrepôt existent indépendamment de l’article scientifique : elles doivent être décrites par des métadonnées les plus riches possibles afin de les retrouver facilement pour favoriser le partage et la réutilisation. Un identifiant pérenne ou numéro d’accès est attribué à chaque jeu de données ce qui le rend visible, accessible et citable, au même titre que la publication.
Rendre ses données faciles à trouver en :
- décrivant les données avec des métadonnées riches
- en attribuant aux (méta)données un identifiant unique et pérenne (par exemple un DOI).
Pratique : La plupart des entrepôts attribueront un identifiant pérenne lors de l'archivage d'un ensemble de données.
Rendre ses données accessibles en s'assurant que :
- l'entrepôt utilisé pour partager ses données attribue des identifiants pérennes à partir desquels lesquels les données peuvent être récupérées.
- les métadonnées sont accessibles, dans la mesure du possible, même si les données ne le sont pas. La procédure d'accès peut comprendre des étapes d'authentification et d'autorisation, si nécessaire.
Rendre ses données interopérables en utilisant :
- lorsque cela est possible, des format, logiciels et langages de préférence ouverts et largement partagés.qui permettent les échanges entre systèmes informatiques et augmentent les capacités des métadonnées à être combinées
- des identifiants pérennes : DOI, PMID, SWHid, arXiv ID
- des référentiels : idRef, ORCID, RNSR
- des vocabulaires contrôlés : DC, RDF, FOAF, SKOS, BILBO, Fabio
Rendre ses données réutilisables en s'assurant :
- que les données sont bien documentées pour soutenir une interprétation correcte des données.
- que leur est attribuée une licence d'utilisation claire et accessible afin que d'autres chercheurs puissent savoir quels types de réutilisation sont autorisés.
- que sont disponibles des informations sur la provenance pour indiquer clairement comment, pourquoi et par qui les données ont été créées et traitées.
Un entrepôt de données de recherche (Research Data Repository ou Data Repository) est une base de données destinée à accueillir, conserver, rendre visibles et accessibles des données de recherche. Son rôle est de permettre le dépôt ou la collecte de données, leur description, leur accès, et leur partage en vue de leur réutilisation.
Chaque entrepôt dispose généralement d’une politique de dépôt, de description et de diffusion des données. L'un des critères de choix d'entrepôt peut être la possibilité d’attribution d’une licence imposant la citation des créateurs des données lorsque celles-ci seront réutilisées.
Il existe plusieurs types d’entrepôts :
- disciplinaires
- multidisciplinaires
- institutionnels
- propres à un éditeurs
- spécifiques à un projet
Afin de choisir un entrepôt de confiance, il est conseillé de
- vérifier si un entrepôt est recommandé par l’une des parties prenantes de votre projet (votre financeur, éditeur, institution)
- trouver l'entrepôt adapté à vos besoins.en utilisant des annuaires d’entrepôts et/ou en recherchant des entrepôts certifiés.
En SHS, on peut notamment signaler l’entrepôt Nakala porté par Huma-Num qui répond à la plupart des besoins.