Diffuser ses données dans un entrepôt

Vous êtes ici :

L’ouverture et la diffusion des données de recherche est un gage de transparence et de reproductibilité de la recherche. Les chercheurs ont désormais l’obligation d’ouvrir certaines de leurs données selon l’adage “aussi ouvert que possible, aussi fermé que nécessaire”.

Le stockage et le dépôt de données sont deux choses distinctes : tandis que le stockage concerne le moment où les données sont collectées et traitées, le dépôt intervient dans une démarche de préservation, de partage et de diffusion qui permettra d’établir un lien entre les données et les publications. Le dépôt des données est ainsi un gage de transparence et de reproductibilité de la recherche. 

Quelles données ouvrir ?

Déposer des données dans un entrepôt

Les données déposées dans un entrepôt existent indépendamment de l’article scientifique : elles doivent être décrites par des métadonnées les plus riches possibles afin de les retrouver facilement pour favoriser le partage et la réutilisation. Un identifiant pérenne ou numéro d’accès est attribué à chaque jeu de données ce qui le rend visible, accessible et citable, au même titre que la publication.

 

Comment rendre ses données FAIR ?

 

Contenu du texte déplié

Rendre ses données faciles à trouver en :

Pratique : La plupart des entrepôts attribueront un identifiant pérenne lors de l'archivage d'un ensemble de données.

Contenu du texte déplié

Rendre ses données accessibles en s'assurant que :

  • l'entrepôt utilisé pour partager ses données attribue des identifiants pérennes à partir desquels lesquels les données peuvent être récupérées.  
  • les métadonnées sont accessibles, dans la mesure du possible, même si les données ne le sont pas. La procédure d'accès peut comprendre des étapes d'authentification et d'autorisation, si nécessaire.
Contenu du texte déplié

Rendre ses données interopérables en utilisant :

  • lorsque cela est possible, des format, logiciels et langages de préférence ouverts et largement partagés.qui permettent les échanges entre systèmes informatiques et augmentent les capacités des métadonnées à être combinées
  • des identifiants pérennes : DOI, PMID, SWHid, arXiv ID
  • des référentiels : idRef, ORCID, RNSR
  • des vocabulaires contrôlés : DC, RDF, FOAF, SKOS, BILBO, Fabio
Contenu du texte déplié

Rendre ses données réutilisables en s'assurant  :

  • que les données sont bien documentées pour soutenir une interprétation correcte des données.
  • que leur est attribuée une licence d'utilisation claire et accessible afin que d'autres chercheurs puissent savoir quels types de réutilisation sont autorisés.
  • que sont disponibles des informations sur la provenance pour indiquer clairement comment, pourquoi et par qui les données ont été créées et traitées.

Choisir un entrepôt

Un entrepôt de données de recherche (Research Data Repository ou Data Repository) est une base de données destinée à accueillir, conserver, rendre visibles et accessibles des données de recherche. Son rôle est de permettre le dépôt ou la collecte de données, leur description, leur accès, et leur partage en vue de leur réutilisation.

Chaque entrepôt dispose généralement d’une politique de dépôt, de description et de diffusion des données. L'un des critères de choix d'entrepôt peut être la possibilité d’attribution d’une licence imposant la citation des créateurs des données lorsque celles-ci seront réutilisées.

La minute entrepôt - DoRANum
Contenu du texte déplié

Les entrepôts permettent de stocker des données de recherche d'y accéder et de les réutiliser. Il existe différentes catégories d'entrepôts : les entrepôts propres à un éditeur, à une discipline, à une institution ou multidisciplinaires. A cela s'ajoutent d'autres particularités. Certains entrepôts acceptent tous les jeux de données, qu'ils soient ou non liés à des publications d'autres n'acceptent que les données sous-jacentes à des publications des entrepôts mixtes reçoivent à la fois des publications scientifiques et des jeux de données liées ou pas aux publications déposées. On dit aussi de certains entrepôts qu'ils sont de confiance car ils répondent à des critères de qualité. Ces critères leur permettent d'être certifiés. De nombreux entrepôts ne sont pas certifiés mais sont cependant largement reconnus par la communauté scientifique. Alors comment trouver le bon entrepôt ? L'une des solutions est de passer par un annuaire qui recense des listes d'entrepôts. La recherche d'entrepôts pourra alors y être filtrée par critères. L'on peut distinguer différentes catégories d'annuaires : disciplinaires multidisciplinaires et mixtes qui contiennent à la fois des archives ouvertes et des entrepôts.

Type d'entrepôts

Il existe plusieurs types d’entrepôts :

  • disciplinaires
  • multidisciplinaires
  • institutionnels
  • propres à un éditeur
  • spécifiques à un projet

 

 

Lorsque vous choisissez un entrepôt pour vos données, utilisez les critères suivants :

  • votre entrepôt est-il pérenne ? le répertoire choisi devrait être en ligne depuis au moins 5 ans.
  • La politique du dépôt restreint-elle le choix des licences pouvant être attribuées à vos données : si vous ne pouvez pas partager vos données sous la licence que vous avez choisie, vous feriez mieux de trouver ailleurs une meilleure offre.
  • Y-a t'il une curation des dépôts ? La curation est l'ensemble des opérations de vérification des fichiers, de contrôle et d'amélioration des métadonnées dans le but de produire un dépôt de qualité. Sans curation (par un technicien appelé curateur), vous risquez de négliger des métadonnées importantes dans la description de votre jeu de données, et de réduire les possibilités de le trouver et de le réutiliser.
  • Le dépôt fournit-il des identifiants pérennes aux ensembles de données (DOI par exemple) ? Ces identifiants sont nécessaires pour rendre vos données trouvables et citables.
  • Faut-il payer pour déposer ses données ? Certains frais sont abusifs, en particulier dans le secteur à but lucratif, où certaines grandes entreprises facturent des coûts qui n'ont rien à voir avec le service fourni.
  • Le dépôt est-il situé en Europe ? La conformité au RGPD est en jeu.

Le Comité pour la Science Ouverte (CoSO) a élaboré une méthode de sélection d'un entrepôt de confiance (2024) qui s'appuie sur des critères de description et des critères d'exclusion.

En SHS, on peut notamment signaler l’entrepôt Nakala porté par Huma-Num qui répond à la plupart des besoins. 

S'il n'existe pas d'entrepôt disciplinaire de confiance adapté à vos besoins, vous pouvez déposer vos données sur l'entrepôt de données de recherche national Recherche Data Gouv. Un espace institutionnel de l'université Rennes 2 permet de les mettre en valeur.

Entrepôts dédiés à une ou plusieurs disciplines issues des SHS - DoRANum