ORTOLANG Deposit and sharing

Speech and Language Data Repository (SLDR/ORTOLANG)

Investissements d'avenir  Huma-Num  CLARIN

Open archives (OAI-PMH)

Publications (2)

Corpus ANCOR Centre

Secondary data (resource) ortolang-000903

ID Bibliographical reference Abstract
116Judith MUZERELLE, Anaïs LEFEUVRE, Jean-Yves ANTOINE, Emmanuel SCHANG, Denis MAUREL, Jeanne VILLANEAU, Iris ESHKOL (2013). ANCOR : premier corpus de français parlé d'envergure annoté en coréférence et distribué librement. Actes TALN'2013. Les Sables d'Olonnes, France [HAL 01016562].
http://www.taln2013.org/actes/www/TALN-2013/actes/taln-2013-court-007.pdf
https://hal.archives-ouvertes.fr/hal-01016562
Secondary data (resource)
Corpus ANCOR Centre (ortolang-000903)
Cet article présente la réalisation d’ANCOR, qui constitue par son envergure (453 000 mots) le premier corpus francophone annoté en anaphores et coréférences permettant le développement d’approches centrées sur les données pour la résolution des anaphores et autres traitements de la coréférence. L’annotation a été réalisée sur trois corpus de parole conversationnelle (Accueil_UBS, OTG et ESLO) qui le destinent plus particulièrement au traitement du langage parlé. En l’absence d’équivalent pour le langage écrit, il est toutefois susceptible d’intéresser l’ensemble de la communauté TAL. Par ailleurs, le schéma d’annotation retenu est suffisamment riche pour permettre des études en linguistique de corpus. Le corpus sera diffusé librement à la mi-2013 sous licence Creative Commons BY-NC-SA. Cet article se concentre sur sa mise en œuvre et décrit brièvement quelques résultats obtenus sur la partie déjà annotée de la ressource.
115MUZERELLE, J.; LEFEUVRE, A.; SCHANG, E.; ANTOINE, J.-Y; PELLETIER, A.; MAUREL, D.; ESHKOL, I.; VILLANEAU, J. (2014). ANCOR_Centre, a Large Free Spoken French Coreference Corpus: description of the Resource and Reliability Measures. LREC'2014, 9th Language Resources and Evaluation Conference., May 2014, Reyjavik, Iceland.
http://hal.archives-ouvertes.fr/hal-01075679
Secondary data (resource)
Corpus ANCOR Centre (ortolang-000903)
This article presents ANCOR_Centre, a French coreference corpus, available under the Creative Commons Licence. With a size of around 500,000 words, the corpus is large enough to serve the needs of data-driven approaches in NLP and represents one of the largest coreference resources currently available. The corpus focuses exclusively on spoken language, it aims at representing a certain variety of spoken genders. ANCOR_Centre includes anaphora as well as coreference relations which involve nominal and pronominal mentions. The paper describes into details the annotation scheme and the reliability measures computed on the resource.