ORTOLANG Dépôt et diffusion

Banque de données parole et langage (SLDR/ORTOLANG)

Investissements d'avenir  Huma-Num  CLARIN

Archives ouvertes (OAI-PMH)

Foire Aux Questions

1. Qu'est-ce que le SLDR ?

Le SLDR (Speech and Language Data Repository) est un entrepôt de données linguistiques orales et multimodales. Depuis 2015, il dispose du statut de centre CLARIN-C.
Avec le CNRTL et le Centre nanterre-Orléans, il est un élément d'ORTOLANG, plateforme nationale de partage des données linguistiques.

2. Quels sont les services offerts ?

Le SLDR propose avec ses partenaires un service permettant de gérer l'ensemble des étapes de la conservation et de la diffusion des données :
- aide à la mise en forme des données;
- interface web de dépôt;
- description des données avec les standards de métadonnées DublinCore et OLAC;
- création et gestion d'identifiants pérennes;
- stockage sécurisé;
- archivage pérenne en lien avec le CINES.

3. Que pouvez-vous faire sur le SLDR ?

Principalement les actions suivantes : déposer des données, générer leurs métadonnées, consulter les fiches descriptives et, selon les cas, télécharger les fichiers.

4. Quels types de données sont accueillis ?

Des enregistrements audio, vidéo, des données brutes, …
Des lexiques, bases de connaissances, annotations, transcriptions,…
Des outils permettant l'analyse et l'enrichissement des données.
Le SLDR permet en outre de regrouper ces différents objets au sein de collections.

5. Où les données sont-elles stockées ?

Les données sont stockées sur les serveurs de l'INIST, à Nancy, qui hébergent la plateforme d'ORTOLANG. Les objets ayant fait l'objet d'un archivage pérenne sont eux stockés au CINES.
Le SLDR effectue de son côté une double sauvegarde des données qu'il gère.

6. Qui peut faire un dépôt sur le SLDR ?

Tout utilisateur inscrit, à titre personnel ou institutionnel. Le SLDR reconnaît deux types d'utilisateurs : ceux qui relèvent de la recherche publique ; ceux qui relèvent d'un autre domaine, dont l'industrie et le commerce.
La nationalité n'est pas prise en compte.

7. Comment déposer ses données ?

Il faut d'abord créer un compte sur le site du SLDR.
Après validation de votre compte par les administrateurs, vous devez commencer par créer la fiche de métadonnées à partir du lien « Déposer/modifier » dans le menu.
Une fois la fiche remplie avec les champs obligatoires, vous pourrez renseigner les autres au fur et à mesure.
Le dépôt des données advient dans un second temps. En fonction de leur volume, nous pouvons les intégrer par transfert FTP ou par l'utilisation d'un support physique (disque externe).

8. Faut-il ordonner ses données d'une façon particulière pour le dépôt ?

Le SLDR permet le dépôt d'objets sans limitation de volume ni d'arborescence. Il vous est donc possible de déposer les données dans leur classement d'origine ; il sera reproduit dans la page de téléchargement.
L'équipe du SLDR vous aidera pour la sélection des formats permettant l'archivage pérenne ainsi que pour le choix d'une présentation facilitant la réutilisation des données par d'autres utilisateurs.

9. Qu'est-ce qu'un identifiant pérenne et à quoi sert-il ?

Le SLDR dispose de son propre mécanisme d'attribution d'identifiants pérennes (Permanent Identifiers, PIDs). Ces identifiants sont attribués à un objet, ainsi qu'à tout ou partie de ses fichiers.
Eléments constituants des URL des objets ou des fichiers, ces identifiants assurent le déposant et les utilisateurs de retrouver durablement les données quelle que soit leur localisation.
Un PID permet en particulier de fournir une référence durable pour toutes les citations effectuées dans les publications.
En outre, le mécanisme mis en place au SLDR s'appuie sur des identifiants semi-déterministes : l'identifiant n'est pas constitué d'une chaine alphanumérique arbitraire mais d'éléments prédictibles. Il est ainsi plus aisé d'utiliser ces PID dans des citations, y compris avant que toutes les données aient été déposées.

10. Est-il possible de mettre à jour ou de versionner des objets ?

La mise à jour des données et des métadonnées est toujours possible tant qu'elles n'ont pas fait l'objet d'un archivage pérenne.
Le dépôt en archive pérenne implique qu'un objet est finalisé : toute modification ultérieure se traduira par la création d'une nouvelle version. Toutefois, il est possible de classer dans un dossier nommé « §doc » des fichiers qui pourront être modifiés même après l'archivage de l'objet.

11. En quoi consiste l'archivage pérenne ?

Il s'agit d'une procédure de stockage particulière conduite par le CINES (Montpellier) visant à conserver les données pendant une période longue (env. 30 ans).
Elle suppose notamment d'utiliser des formats dont on peut estimer qu'ils seront durablement accessibles (il s'agit principalement des formats ouverts et libres).
Dans le cadre d'ORTOLANG, l'archivage pérenne sera réservé aux données présentant un intérêt patrimonial particulier et ne pouvant être reproduites.

12. Comment les droits d'accès sont-ils gérés ?

La gestion des droits sur le SLDR s'appuie sur le Code du Patrimoine puisque celui-ci peut s'appliquer aux archives scientifiques publiques.
Le Code du Patrimoine dispose la libre diffusion des archives publiques mais prévoit également des dérogations. En particulier, les données orales sont assimilées à des données personnelles et sont de ce fait protégées.
La libre diffusion des données sur le SLDR est ainsi soumise à un examen des contenus, des autorisations des locuteurs et également des formats de fichiers.
Le statut des données ainsi défini détermine une gradation fine des droits d'accès adaptés à chaque objet.

13. Peut-on joindre des licences aux objets déposés ?

Pour les objets en accès libre, correspondant à la dérogation AR038 du Code du Patrimoine (v. question précédente), il est possible d'associer une licence spécifiant les conditions d'utilisation.
Vous pouvez notamment utiliser les licences libres telles que Creative Commons, GNU, etc.
Parallèlement, le SLDR propose automatiquement sa propre licence pour les objets en accès filtré. Ces objets ne sont accessibles aux utilisateurs inscrits qu'une fois qu'ils ont accepté la licence SLDR. Cet accès filtré permet en outre d'informer les déposants des téléchargements effectués sur leurs données.

14. Quels sont les différents types d'accès aux données ?

En allant du plus ouvert au plus fermé :
- Les objets « publics », sous dérogation AR038, sont accessibles à tous et peuvent être accompagnés d'une licence libre. Ces mêmes objets peuvent dans certains cas être en accès filtré : ils requièrent alors de l'utilisateur son identification et son acceptation de la licence SLDR.
- Les autres objets,notamment sous dérogation AR048 protégeant les données personnelles, sont d'un accès plus limité :
- ils nécessitent dans tous les cas identification et acceptation de la licence SLDR ;
- ils peuvent en outre être réservés à la catégorie des chercheurs ;
- le SLDR offre également aux déposants la possibilité de créer un « accès privilégié » pour certaines institutions ou certaines personnes ;
- il est enfin possible d'accorder des droits spécifiques à des personnes précises.
- Il existe également une dernière catégorie de fichiers, des fichiers secrets, accessibles seulement au déposant et aux administrateurs, permettant de conserver, par exemple, des autorisations non anonymisées.