ORTOLANG Dépôt et diffusion

Banque de données parole et langage (SLDR/ORTOLANG)

Investissements d'avenir  Huma-Num  CLARIN

Archives ouvertes (OAI-PMH)

Publications (94)

Afficher   
Des objets sont invisibles car leurs dépôts sont inachevés.

Ajouter une publication

ID Notice bibliographique Objet référencéRésumé
141Alexander Gelbukh and Olga Kolesnikova. (2010). Supervised Learning for Semantic Classification of Spanish Collocations. In: Jesús Ariel Carrasco-Ochoa, José Francisco Martínez-Trinidad, Josef Kittler (Eds.). Advances in Pattern Recognition: Proceedings of the Second Mexican Conference on Pattern Recognition, Puebla, Mexico, September 2010. Lecture Notes in Computer Science N 6256, pp. 362–371. Berlin, Heidelberg: Springer-VerlagDonnées secondaires (ressource)
Lexical functions of Spanish verb-noun collocations (ortolang-000920)
The meaning of word combination such as give a book or lend money can be obtained by mechanically combining the meaning of the two constituting words: to give is to hand over, a book is a pack of pages, then to give a book is to hand over a pack of pages. However, the meaning of such word combinations as give a lecture or lend support is not obtained in this way: to give a lecture is not to hand it over. Such word pairs are called collocations. While their meaning cannot be derived automatically from the meaning of their constituents, we show how to predict the meaning of a previously unseen word combination using semantic regularities we observe in a training set of collocations whose meaning has been specified manually.
28ANDRÉ, C.; GHIO, A.; CAVÉ, C.; TESTON, B. PERCEVAL: a Computer-Driven System for Experimentation on Auditory and Visual Perception. Proceedings of XVth ICPhS (2003 August 3-9 : Barcelona, Spain). 2003, p.1421-1424.
http://hal.archives-ouvertes.fr/hal-00142980
Outil
PERCEVAL (sldr000010)
Since perception tests are highly time-consuming, there is a need to automate as many operations as possible, such as stimulus generation, procedure control, perception testing, and data analysis. The computer-driven system we are presenting here meets these objectives. To achieve large flexibility, the tests are controlled by scripts. The system’s core software resembles that of a lexical-syntactic analyzer, which reads and interprets script files sent to it. The execution sequence (trial) is modified in accordance with the commands and data received. This type of operation provides a great deal of flexibility and supports a wide variety of tests such as auditory-lexical decision making, phoneme monitoring, gating, phonetic categorization, word identification, voice quality, etc. To achieve good performance, we were careful about timing accuracy, which is the greatest problem in computerized perception tests.
102Astésano, C.; Bard, E.; Turk, A. (2007). Structural influences on Initial Accent placement in French. Language and Speech, 50 (3), 423-446
http://las.sagepub.com/content/50/3/423.short?rss=1&ssource=mfr
Données primaires (corpus)
MAPTASK-AIX (sldr000732)
In addition to the phrase-final accent (FA), the French phonological system includes a phonetically distinct Initial Accent (IA). The present study tested two proposals: that IA marks the onset of phonological phrases, and that it has an independent rhythmic function. Eight adult native speakers of French were instructed to read syntactically ambiguous French sentences (e.g., Les gants et les bas lisses `the smooth gloves and stockings\') in a way that disambiguated the scope of the adjective. When the final adjective (lisses) applies to the conjoined NP, a prosodic boundary is warranted immediately before the adjective; when it applies to the second NP alone, a boundary before that NP is more appropriate. Length of the second noun and the adjective were varied from one to four syllables to investigate length-related tendencies toward phonological boundary marking and toward rhythmic placement of IA. For the materials from six speakers whose readings were correctly interpreted by native listeners, incidence of word-initial prosodic peaks was affected by both structure and length, with most reliable occurrence at onsets of Minor/Phonological Phrases. The only effect of rhythmicity independent of phrase structure was omission of FA in stress clash with IA.
143AURAN Cyril, BOUZON Caroline, HIRST Daniel. The AixMARSEC project: an evolutive database of spoken English (2004). In Bel, B. & Marlien, I. (eds) Proceedings of the Second International Conference on Speech Prosody.
http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.485.6792
Données primaires (corpus)
Aix-MARSEC base de données (sldr000033)
This paper presents the Aix-MARSEC project, an evolutive database of spoken British English. Specific details are given about the grapheme-phoneme conversion from the orthographic transcripts, the optimisation by elision rules of the phonetic transcription, the automatic phoneme-level alignment and automatic higher level treatment (syllables, subsyllabic structure, rhythmic units and MOMEL-INTSINT intonation coding). Integration of users ’ contributions will be within the general framework of GNU GPL licensing. Preliminary (pragmatic and prosodic) studies are presented in the final part of the paper.
138Balvet, A., Courtin, C., Boutet, D., Cuxac, C., Fusellier-Souza, I., Garcia, B., L’Huillier, M-T. et Sallandre, M.-A., (2010). "The Creagest Project: a Digitized and Annotated Corpus for French Sign Language (LSF) and Natural Gestural Languages", Proceedings of the International Language Resources and Evaluation Conference (LREC'2010), Malte, May 19-21, 2010. 469-475Collection
CREAGEST (ortolang-000912)
75BEL, B. Acquisition et représentation de connaissances en musique. Thèse de Doctorat en Sciences (nouveau régime) : Université de Droit, d'Economie et des Sciences d'Aix-Marseille III. Sous la direction de M. Alain Guénoche. Novembre 1990. Paris: EDILIVRES. 2008
http://tel.archives-ouvertes.fr/tel-00009692
Outil
Bol Processor BP2 (sldr000753)
This study deals with computer representations of musical knowledge on the basis of two real-scale experiments. The first experiment focusses on knowledge acquisition in ethnography: an expert (the musician), an analyst (the musicologist) and a machine are interacting in a learning situation. Improvisation schemata through which musicians express themselves are identified and formalized with production rules in a formalism derived from generative grammars and pattern languages. A deterministic algorithm is introduced for assessing the membership of arbitrary strings to the langage defined by a given (context-sensitive) grammar. A technique for the inductive inference of regular languages is presented, enabling automatic knowledge acquisition of syntactic and lexical knowledge. The second experiment is part of the design of a computer environment for musical composition. Here the problem is time representation in a discrete structure of “time objects”, more generally the synchronization of parallel processes. A method is outlined for the determination of a structure with incomplete data about the synchronization of its objects. The concept of “sound object” is then formally introduced. An efficient algorithm is proposed for the time-setting of objects in a structure, given the constraints arising from their metric and topological properties.
76BEL, B. Bol Processor - an overview. Proceedings of Symposium Virtual Gamelan Graz: Rules, Grammars, Modeling (2006 octobre 27-28 : Graz, Austria)
http://lpl-aix.fr/~fulltext/2941.pdf
Outil
Bol Processor BP2 (sldr000753)
This overview is based on Bernard Bel's invited communication in Graz (Austria) at the end of October 2006.
30BEL, B. Le corpus « Ambedkar ». Travaux Interdisciplinaires du Laboratoire Parole et Langage d'Aix-en-Provence (TIPA), no. 25. 2006, p. 19-30.
http://hal.archives-ouvertes.fr/hal-00136392
Données primaires (corpus)
अांबेडकर - Ambedkar (sldr000011)
Le corpus « Ambedkar » est un sous-ensemble du recueil de chants de la mouture collectés depuis plusieurs décennies par le Centre for Cooperative Research in Social Sciences (CCRSS, Pune, Inde). Dans ce projet, plus de 80000 distiques ont été répertoriés sur la base de 3617 unités sémantiques, parmi lesquelles 113 sont en relation avec Ambedkar et/ou la communauté mahâr. L'homogénéité relative du groupe de locutrices a rendu possible un travail de terrain ciblé sur ce thème, aboutissant à un recueil presque exhaustif de 2239 distiques. Les textes des chants ont été transcrits en alphabet devanâgarî et devanâgarî romanisé, avec traductions en anglais et en français.
La stabilité des distiques qui constituent le « texte de référence » des chants de la mouture contraste avec l'extrême variabilité de leur performance, laquelle ne se réduit pas à la juxtaposition du texte sur une mélodie arbitrairement choisie. La performance s'apparente à un processus narratif selon un parcours non-linéaire, multivoque par l'effet de « rhétoriques emmêlées ». L'article présente, de manière succinte et à partir d'un exemple, l'exploitation du corpus pour l'analyse de techniques d'improvisation mélodique : intonation, rythme, ornementation.
31BEL, B. Singing a Politician. In Krzysztof Izdebski (ed.) Emotions in the Human Voice. San Diego, CA: Plural Publishing [Forthcoming], vol.V : Political, Military, Medical and Commercial Applications.
http://lpl-aix.fr/article/3241
Données primaires (corpus)
अांबेडकर - Ambedkar (sldr000011)
This paper aims at demonstrating the way prosodic/melodic figures may convey emotions shared by the community of singers irrespective of explicit codes acquired by listeners. This informal communication is achieved by means of putting a strong emphasis on words or phrases which at first view may not be prominent in the regular text recited by the singer.
77BEL, B. The Bol Processor project: musicological and technical issues. Seminar of the Music, Informatics and Cognition research group, University of Edinburgh. (2006 octobre 31 : Edinburgh, UK.
http://lpl-aix.fr/~fulltext/2941.pdf
Outil
Bol Processor BP2 (sldr000753)
Bol Processor is a program for music composition and improvisation with real-time MIDI, MIDI file, and Csound output. It produces music from a set of rules (a compositional grammar) or from text scores typed or captured from a MIDI instrument
99BEL, B.; GASQUET-CYRUS, M. (2011). Interdisciplinarity and the sharing of oral data open new perspectives to field linguistics. Actes, Colloque de l’AFLS : Regards nouveaux sur les liens entre théories, méthodes et données en linguistique française (2011 septembre 8-10 : Nancy, FRANCE)
http://lpl-aix.fr/article/4733
Collection
Valjouffrey-Valbonnais (valjouffrey-000007)
Our laboratory is engaged in resource collection, analysis and theorizing (socio)linguistics with particular focus on links between experimental and field approaches. Two projects dealing with endangered languages on the border area of Provençal and Francoprovençal (Valjouffrey and Valbonnais, Isère) are addressing this issue. Their fieldwork builds on multichannel recordings and video coverage allowing accurate studies of interactions.
Dealing with large amounts of data beyond the scope of projects is justified by their sharing in medium-term and long-term archives hosted by the Speech & Language Data Repository (SLDR, http://sldr.org). Resource pooling contributes to mobilizing amateurs and professionals handing over unpublished data for its preservation and non-commercial distribution. This phenomenon empowered our informants who became members of the team in full right, setting new priorities on the research agenda : the design of a script for their revitalized language and an inventory of place names that delineate their living space.
27BÉRAHA, J.-P.; GHIO, A. Le traitement du rapport parole-bruit dans les prothèses numériques : analyse sonagraphique comparative sur logiciel Phonedit. Actes, Journées Nationales des Audioprothésistes Français (2000 mars 26-27 : Paris, France). 2000, p. 10.
http://lpl-aix.fr/article/974
Outil
Phonedit SIGNAIX (sldr000009)
Les circuits numériques à traitement multi-canal du signal ont pour but d'adapter la fonction de transfert des aides auditives aux caractéristiques fonctionnelles de la perception auditive d'un patient donné, en améliorant le rapport parole-bruit, c'est-à-dire en atténuant les bruits environnementaux au bénéfice du signal de parole émis par le locuteur.
De nombreuses communications et articles ont présenté les divers algorithmes de traitement du signal dans les aides auditives récentes. [...]
62BERTRAND, R.; ADER, M.; BLACHE, P.; FERRÉ, G.; ESPESSER, R.; RAUZY, S. Représentation, édition et exploitation de données multimodales : le cas des backchannels du corpus CID. Cahiers de Linguistique, vol. 33, 2, 2009, p. 183-212.
http://lpl-aix.fr/article/3467
Données primaires (corpus)
Vidéos du corpus CID (sldr000027)
La constitution, l’annotation et l’exploitation de corpus conversationnels multimodaux constituent un enjeu majeur dans la recherche en sciences du langage. Nous présentons ici le CID (LPL) et les premiers résultats d’une étude sur les signaux backchannels (BC). Ces derniers sont des phénomènes vocaux et/ou gestuels produits par l’auditeur pour signaler son attention au discours. Notre objectif vise à améliorer les typologies formelles et fonctionnelles des BC et à rendre compte du rôle des indices discursifs et prosodiques favorisant leur production. L’exploitation simultanée des annotations des différents niveaux linguistiques implique des outils d’interrogation. Nous avons testé une méthode d’extraction des données (XSLT). Nos résultats préliminaires permettent de poser quelques éléments de discussion pour interroger ultérieurement le rôle des indices prosodiques notamment.
26BERTRAND, R.; BLACHE, P.; ESPESSER, R.; FERRÉ, G.; MEUNIER, C.; PRIEGO-VALVERDE, B.; RAUZY, S. Le CID — Corpus of Interactional Data — Annotation et Exploitation Multimodale de Parole Conversationnelle. Traitement Automatique des Langues, vol. 49, no. 3. 2008
http://hal.archives-ouvertes.fr/hal-00349893
Données primaires (corpus)
Vidéos du corpus CID (sldr000027)
La compréhension des mécanismes du langage nécessite de prendre en compte très précisément les interactions entre les différents domaines ou modalités linguistiques, ce qui implique la constitution et le développement de ressources. Nous décrivons ici le CID (Corpus of Interactional Data), corpus audio-video de 8 heures, en français, constitué au Laboratoire Parole et Langage (LPL). L’annotation multimodale du CID inclut la phonétique, la prosodie, la morphologie, la syntaxe, le discours et la mimo-gestualité. Nos premiers résultats d’études menées sur le CID permettent de confirmer l’intérêt d’une annotation multimodale pour mieux comprendre le fonctionnement du discours.
33BERTRAND, R.; BLACHE, P.; ESPESSER, R.; FERRÉ, G.; MEUNIER, C.; PRIEGO-VALVERDE, B.; RAUZY, S. Le CID — Corpus of Interactional Data — : protocoles, conventions, annotations. Travaux Interdisciplinaires du Laboratoire Parole et Langage d'Aix-en-Provence (TIPA), vol. 25. 2006, p. 25-55. ISSN 1621-0360.
http://hal.archives-ouvertes.fr/hal-00250271
Données primaires (corpus)
Vidéos du corpus CID (sldr000027)
L'analyse du langage et de la parole repose sur l'étude de domaines variés allant de la phonétique à la pragmatique, tout en prenant en compte les modalités de leur expression. Pour la linguistique moderne, si chaque domaine dispose d'un certain niveau d'autonomie, il ne peut être expliqué que dans son interaction avec les autres : l'information linguistique est le produit de la convergence de multiples sources d'information, information aussi contrainte par l'environnement où le message a été produit. L'analyse linguistique ne peut donc se faire qu'en tenant compte des différentes modalités d'expression de l'information. Mais à ce jour, aucune théorie ne traite de manière intégrée des informations issues des différents niveaux de la chaîne linguistique, qui est par essence un contenu perceptuel multimodal. Bien que de nombreux projets d'annotation se soient développés ces dernières années, des problèmes subsistent: les ressources multimodales annotées n'existent quasiment pas pour le français ; les standards d'annotation ne répondent pas complètement aux besoins et les outils ne sont pas adaptés. Or, le développement de ce type de ressources est utile à plusieurs titres, entre autres la description des informations de chacun des domaines et de leurs interactions. Nous présentons le Corpus of Interactional Data (CID), corpus audio et vidéo comptant actuellement 8h de dilogue en français, les annotations à l'étude (phonétique, prosodique, morphosyntaxique, mimo-gestuelle) et leur état de réalisation.
17BERTRAND, R.; FERRÉ, G.; BLACHE, P.; ESPESSER, R.; RAUZY, S. Backchannels revisited from a multimodal perspective. Proceedings of Auditory-visual Speech Processing (2007 août 31-septembre 3 : Hilvarenbeek, THE NETHERLANDS). 2007, p. 1-17. Cederom.
http://hal.archives-ouvertes.fr/hal-00244490
Données primaires (corpus)
Vidéos du corpus CID (sldr000027)
In this study, we analyze the role of several linguistic cues (prosodic units, pitch contours, discourse markers, morphological categories, and gaze direction) in French turn-taking face-to-face interactions. Specifically, we investigate vocal and gestural backchannel signals (BCs) produced by a recipient to show his active listening. We show that some particular pitch contours and discursive markers play a systematic role in inducing both gestural and vocal BCs. Conversely, morphological categories and gestural cues rather play a role for gestural BCs.
74BERTRAND, R.; PORTES, C. Spontaneous speech, interaction & large databases for prosodic research. Sound to sense (2009 avril 19-24 : Aix en Provence, FRANCE).
http://lpl-aix.fr/article/3566
Données primaires (corpus)
Vidéos du corpus CID (sldr000027)
This talk will address the problem of the relationship between grammar approaches to prosody and large data bases of spontaneous speech. Of course, naturally occurring data present to the observation multiple sources of information mixed together so that they may be hidden at first sight. However, phonological (grammatical) units are recoverable in spontaneous speech. But we need to separate several phenomenon such as disfluencies and/or continuous/categorical dimension in the prosodic study. Moreover, it is crucial to analyze the different protagonists of talk-in-interaction to take into account the role of prosodic cues in the turn-taking system.
96BIGI, B.; MEUNIER, C.; NESTERENKO, I.; BERTRAND, R. (2010). Automatic Detection of Syllable Boundaries in Spontaneous Speech. Proceedings of the Seventh conference on International Language Resources and Evaluation (LREC\'10).
http://www.lrec-conf.org/proceedings/lrec2010/
Données secondaires (ressource)
Transcriptions du corpus CID (sldr000720)
This paper presents the outline and performance of an automatic syllable boundary detection system. The syllabification of phonemes is performed with a rule-based system, implemented in a Java program. Phonemes are categorized into 6 classes. A set of specific rules are developed and categorized as general rules which can be applied in all cases, and exception rules which are applied in some specific situations. These rules deal with a French spontaneous speech corpus. Moreover, the proposed phonemes, classes and rules are listed in an external configuration file of the tool (under GPL licence) that make the tool very easy to adapt to a specific corpus by adding or modifying rules, phoneme encoding or phoneme classes, by the use of a new configuration file. Finally, performances are evaluated and compared to 3 other French syllabification systems and show significant improvements. Automatic system output and expert\'s syllabification are in agreement for most of syllable boundaries in our corpus.
95BLACHE, P.; BERTRAND, R.; BIGI, B. et al. (2010). Multimodal annotation of conversational data. Proceedings of the Fourth Linguistic Annotation Workshop.
http://portal.acm.org/citation.cfm?id=1868749
Données secondaires (ressource)
Transcriptions du corpus CID (sldr000720)
We propose in this paper a broad-coverage approach for multimodal annotation of conversational data. Large annotation projects addressing the question of multimodal annotation bring together many different kinds of information from different domains, with different levels of granularity. We present in this paper the first results of the OTIM project aiming at developing conventions and tools for multimodal annotation.
15BLACHE, P.; BERTRAND, R.; FERRÉ, G. Creating and exploiting multimodal annotated corpora. Proceedings of LREC08 - Language Resource and Evaluation COnference (Marrakech, MOROCCO). Marrakech: ELDA. 2008. Cederom.
http://hal.archives-ouvertes.fr/hal-00353722
Données primaires (corpus)
Vidéos du corpus CID (sldr000027)
The paper presents a project of the Laboratoire Parole et Langage which aims at collecting, annotating and exploiting a corpus of spoken French in a multimodal perspective. The project directly meets the present needs in linguistics where a growing number of researchers become aware of the fact that a theory of communication which aims at describing real interactions should take into account the complexity of these interactions. However, in order to take into account such a complexity, linguists should have access to spoken corpora annotated in different fields. The paper presents the annotation schemes used in phonetics, morphology and syntax, prosody, gestuality at the LPL together with the type of linguistic description made from the annotations seen in two examples.
85BLACHE, P.; BERTRAND, R.; FERRÉ, G. Creating and exploiting multimodal annotated corpora: the ToMA project. In Kipp M. (eds.) Multimodal Corpora. Berlin: Springer-Verlag. 2009, vol.LNAI 5509, p. 38-53.
http://hal.archives-ouvertes.fr/hal-00433876
Données primaires (corpus)
Vidéos du corpus CID (sldr000027)
The paper presents a project aiming at collecting, annotating and exploiting a dialogue corpus from a multimodal perspective. The goal of the project is the description of the different parameters involved in a natural interaction process. Describing such complex mechanism requires corpora annotated in different domains. This paper first presents the corpus and the scheme used in order to annotate the different domains that have to be taken into consideration, namely phonetics, morphology, syntax, prosody, discourse and gestures. Several examples illustrating the interest of such a resource are then proposed.
16BLACHE, P.; FERRÉ, G.; RAUZY, S. An XML Coding Scheme for Multimodal Corpus Annotation. Proceedings of Corpus Linguistics (4 : 2007 juillet 27-30 : Birmingham, UNITED KINGDOM).
http://hal.archives-ouvertes.fr/hal-00244494
Données primaires (corpus)
Vidéos du corpus CID (sldr000027)
Multimodality has become one of today's most crucial challenges both for linguistics and computer science, entailing theoretical issues as well as practical ones (verbal interaction description, human-machine dialogues, virtual reality etc...). Understanding interaction processes is one of the main targets of these sciences, and requires to take into account the whole set of modalities and the way they interact.
From a linguistic standpoint, language and speech analysis are based on studies of distinct research fields, such as phonetics, phonemics, syntax, semantics, pragmatics or gesture studies. Each of them have been investigated in the past either separately or in relation with another field that was considered as closely connected (e.g. syntax and semantics, prosody and syntax, etc.). The perspective adopted by modern linguistics is a considerably broader one: even though each domain reveals a certain degree of autonomy, it cannot be accounted for independently from its interactions with the other domains. Accordingly, the study of the interaction between the fields appears to be as important as the study of each distinct field. This is a pre-requisite for an elaboration of a valid theory of language.
However, as important as the needs in this area might be, high level multimodal resources and adequate methods in order to construct them are scarce and unequally developed. Ongoing projects mainly focus on one modality as a main target, with an alternate modality as an optional complement. Moreover, coding standards in this field remain very partial and do not cover all the needs in terms of multimodal annotation.
One of the first issues we have to face is the definition of a coding scheme providing adequate responses to the needs of the various levels encompassed, from phonetics to pragmatics or syntax. While working in the general context of international coding standards, we plan to create a specific coding standard designed to supply proper responses to the specific needs of multimodal annotation, as available solutions in the area do not seem to be totally satisfactory.
140BLACHE, Philippe; MONTCHEUIL, Grégoire; RAUZY, Stéphane(2015).
Typologie des langues automatique à partir de treebanks.
Actes de la conférence TALN-RECITAL 2015 (22-25 Juin 2015, Caen, France)
Outil
MarsaGram - MarsaGram (ortolang-000917)
111BLACHE, Philippe; RAUZY, Stéphane (2008). Influence de la qualité de l\'étiquetage sur le chunking: une corrélation dépendant de la taille des chunks. Actes, Traitement Automatique des Langues Naturelles (15 : 2008 juin 9-13 : Avignon, FRANCE). 2008, p. 1-10. Cederom.
http://hal.archives-ouvertes.fr/hal-00285642
Données secondaires (ressource)
MarsaLex (sldr000850)
Nous montrons dans cet article qu\'il existe une corrélation
étroite existant entre la qualité de l\'étiquetage morpho-syntaxique et les performances des chunkers. Cette
corrélation devient linéaire lorsque la taille des chunks est limitée. Nous appuyons notre démonstration sur la base d\'une expérimentation conduite suite à la campagne d\'évaluation Passage 2007 (De la Clergerie et al. 2008). Nous analysons pour cela les comportements de deux analyseurs ayant participé à cette campagne. L\'interprétation des résultats montre que la tâche de
chunking, lorsqu\'elle vise des chunks courts, peut être assimilée à une tâche de ``super-étiquetage\'\'.
110BLACHE, Philippe; RAUZY, Stéphane (2011). Robustesse et analyse syntaxique. In P. Bellot (ed.) Recherche d’information contextuelle, assistée et personnalisée. Paris: Hermès Sciences. 2011, p. 57-72.Outil
MarsaTag (sldr000841)
129Brigitte Bigi (2012).
SPPAS: a tool for the phonetic segmentations of Speech,
Language Resources and Evaluation Conference, Istanbul (Turkey), pages 1748-1755, ISBN 978-2-9517408-7-7.
http://www.lpl-aix.fr/~bigi/Doc/bigi2012lrecsppas.pdf
Outil
SPPAS - Automatic Annotation of Speech (sldr000800)
SPPAS is a tool to produce automatic annotations which inclu
de utterance, word, syllabic and phonemic segmentations fr
om a recorded speech sound and its transcription. SPPAS is distributed under the terms of the GNU Public License. It was successfully applied during the Evalita 2011 campaign, on Italian map-task dialogues. It can also deal with French, English and Chinese and there is an easy way to add other languages. The paper describes the development of resources and free tools, consisting of acoustic mode
ls, phonetic dictionaries, and libraries and programs to deal with these data. All of them are publicly available
131Brigitte Bigi (2013).
A phonetization approach for the forced-alignment task.
3rd Less-Resourced Languages workshop, 6th Language & Technology Conference, Poznan (Poland).
http://www.lpl-aix.fr/~bigi/Doc/bigi2013ltc.pdf
Outil
SPPAS - Automatic Annotation of Speech (sldr000800)
The phonetization of text corpora requires a sequence of processing steps and resources in order to convert a normalized text in its
constituent phones and then to directly exploit it by a given application. This paper presents a generic approach for text phonetization
and concentrates on the aspects of phonetizing unknown words, which serve to develop a phonetizer in the context of forced-alignement
application. It is a dictionary-based approach, which is as language-independent as possible: this approach is applied to French, English,
Vietnamese, Khmer and Pinyin for Chinese. The tool with linked resources are distributed under the terms of the GPL license.
132Brigitte Bigi (2014).
Automatic Speech Segmentation of French: Corpus Adaptation.
2nd Asian Pacific Corpus Linguistics Conference, p. 32, Hong Kong.
http://www.lpl-aix.fr/~bigi/Doc/bigi2014apclc-slides.pdf
Outil
SPPAS - Automatic Annotation of Speech (sldr000800)
135Brigitte Bigi (2014).
The SPPAS participation to Evalita 2014.
Proceedings of the First Italian Conference on Computational Linguistics CLiC-it 2014 and the Fourth International Workshop EVALITA 2014. Pisa (Italy). Editors R. Basili, A. Lenci, B. Magnini. ISBN 978-886741-472-7. Volume 2. Pages 127-130.
http://www.lpl-aix.fr/~bigi/Doc/bigi_EVALITA2014.pdf
Outil
SPPAS - Automatic Annotation of Speech (sldr000800)
SPPAS is a tool to automatically produce annotations which includes utterance, word, syllabic and phonemic segmentation from a recorded speech sound and its transcription. This paper describes the participation of SPPAS in evaluations related to the “Forced Alignment on Chil-
dren Speech” task of Evalita 2014. SPPAS is a ”user-friendly” software mainly dedicated to Linguists and open source.
136Brigitte Bigi, Caterina Petrone (2014).
A generic tool for the automatic syllabification of Italian.
Proceedings of the First Italian Conference on Computational Linguistics CLiC-it 2014 and the Fourth International Workshop EVALITA 2014. Pisa (Italy). Editors R. Basili, A. Lenci, B. Magnini. ISBN 978-886741-472-7. Volume 1. Pages 73-77.
http://www.lpl-aix.fr/~bigi/Doc/bigi_CLIC2014.pdf
Outil
SPPAS - Automatic Annotation of Speech (sldr000800)
This paper presents a rule-based automatic syllabification for Italian. Differently from previously proposed syllabifiers, our approach is more user-friendly since the Python algorithm includes both a Command-Line User and a Graphical User interfaces. Moreover, phonemes, classes and rules are listed in an external configuration file of the tool which can be easily modified by any user. Syllabification performance is consistent with manual annotation. This algorithm is included in SPPAS, a software for automatic speech segmentation, and distributed under the
terms of the GPL license.
128Brigitte Bigi, Daniel Hirst (2012).
SPeech Phonetization Alignment and Syllabification (SPPAS): a tool for the automatic analysis of speech prosody
Speech Prosody, Tongji University Press, ISBN 978-7-5608-4869-3, pages 19-22, Shanghai (China).
http://lpl-aix.fr/~bigi/Doc/bigi2012speechprosody.pdf
Outil
SPPAS - Automatic Annotation of Speech (sldr000800)
SPPAS, SPeech Phonetization Alignment and Syllabification, is a tool to automatically produce annotations which include utterance, word, syllable and phoneme segmentations from a recorded speech sound and its transcription. SPPAS is currently implemented for French, English, Italian and Chinese and there is a very simple procedure to add other languages. The tool is developed for Unix based platforms (Linux, MaxOS and Cygwin on Windows) and is specifically designed to be used directly by linguists in conjunction with other tools for the automatic analysis of speech prosody. The tools will all be
distributed under a GPL license.
130Brigitte Bigi, Daniel Hirst (2013).
What's new in SPPAS 1.5?,
Proceedins of Tools and Resources for the Analysis of Speech Prosody, Aix-en-Provence, France, Eds B. Bigi and D. Hirst, ISBN: 978-2-7466-6443-2, pp. 62-65.
http://www.lpl-aix.fr/~trasp/Proceedings/20354-trasp2013.pdf
Outil
SPPAS - Automatic Annotation of Speech (sldr000800)
During Speech Prosody 2012, we presented SPPAS, SPeech Phonetization Alignment and Syllabification, a tool to auto-
matically produce annotations which include utterance, word,
syllabic and phonemic segmentations from a recorded speech
sound and its transcription. SPPAS is open source software issued under the GNU Public License. SPPAS is multi-platform
(Linux, MacOS and Windows) and it is specifically designed to be used directly by linguists in conjunction with other tools for the automatic analysis of speech prosody. This paper presents various improvements implemented since the previously described version.
134Brigitte Bigi, Roxane Bertrand, Mathilde Guardiola (2014).
Automatic detection of other-repetition occurrences: application to French conversational speech.
9th International conference on Language Resources and Evaluation (LREC), Reykjavik (Iceland), pages 836-842. ISBN: 978-2-9517408-8-4.
http://www.lpl-aix.fr/~bigi/Doc/bigi_LREC2014_71.pdf
Outil
SPPAS - Automatic Annotation of Speech (sldr000800)
This paper investigates the discursive phenomenon called other-repetitions (OR), particularly in the context of spontaneous French dialogues. It focuses on their automatic detection and characterization. A method is proposed to retrieve automatically OR: this detection is based on rules that are applied on the lexical material only. This automatic detection process has been used to label other-repetitions on 8 dialogues of CID - Corpus of Interactional Data. Evaluations performed on one speaker are good with a F1-measure of 0.85. Retrieved OR occurrences are then statistically described: number of words, distance, etc
133Brigitte Bigi, Tatsuya Watanabe, Laurent Prévot (2014).
Representing Multimodal Linguistics Annotated Data.
9th International conference on Language Resources and Evaluation (LREC), Reykjavik (Iceland). pages 3386-3392. ISBN: 978-2-9517408-8-4.
http://www.lpl-aix.fr/~bigi/Doc/bigi_LREC2014_51.pdf
Outil
SPPAS - Automatic Annotation of Speech (sldr000800)
The question of interoperability for linguistic annotated resources requires to cover different aspects. First, it requires a representation framework making it possible to compare, and potentially merge, different annotation schema. In this paper, a general description level representing the multimodal linguistic annotations is proposed. It focuses on time and data content representation: This paper reconsiders and enhances the current and generalized representation of annotationc. An(X L schema of such annotations is proposed. A Python API is also proposed. This framework is implemented in a multi-platform software and distributed under the terms of the GNU Public License.
37CABAN, M.-C. ; KRIEGEL, S. ; PFAENDER, S. L'Europe de voies en voix. Témoignages franco-allemands de la migration européenne. Collection Transcriptions, Centre Français de l'Université de Freiburg, volume 1, 2007. ISBN-13: 978-3-8305-1253-0
http://lpl-aix.fr/article/2532
Données primaires (corpus)
Migration (sldr000718)
Nous avons enregistré des entretiens (9 heures 15 minutes) avec des personnes âgées, locuteurs de différentes variétés de français ayant un parcours de migration au cours de leurs vies. Au cœur des entretiens se trouvent les questions des migrations individuelles des interlocuteurs, ainsi que, pour beaucoup d’entre eux, l’acquisition d’une nouvelle langue, le français. Les différents entretiens donnent des exemples concrets du contact de langues entre le français d’un côté et d’un autre côté de variétés non standard de l’allemand, du letzebergisch et de l’italien. Pour la publication de l’ouvrage un important travail de rédaction garantissant la lisibilité a été nécessaire. Par ailleurs, des photos originales illustrent le texte et un CD Audio donnent des échantillons sonores des entretiens.
Il s’agit d’un travail interdisciplinaire en sciences humaines et sociales : L'aspect microhistorique évoque les migrations géographiques de nos interlocuteurs et leur intégration. Par ailleurs, l'aspect psychologique joue un rôle primordial : en dialoguant avec la personne qui mène l'entretien, nos interlocuteurs se relient à leur passé. Les enjeux pour la linguistique (corpus oraux, contact de langues) sont évidents : les entretiens ont d’abord été transcrits selon le système « Gesprächsanalytisches Transkriptionssystem (GAT) » basé sur les acquis de l’analyse du discours et développé surtout en Allemagne. Ces transcriptions forment un corpus de langue orale spontanée qui nous permettra d’analyser des phénomènes syntaxiques liés à l’oral et au contact de langues.
34CAELEN-HAUMONT, G.; AURAN, C. Manuel d'utilisation de la procédure MOMEL-MELISM sous Praat. Séminaire invité : Journée Melismes (2005 octobre 6 : Paris 3). 2005, p. 1-30.
http://lpl-aix.fr/article/2455
Outil
MELISM (sldr000037)
L’objectif de ce manuel est de permettre une utilisation rapide de la procédure MELISM, depuis son installation dans Praat jusqu’au seuil de l’utilisation des codes qu’elle fournit en vue d’une exploitation linguistique (phonologique, syntaxique, sémantique) ou pragmatique. [...]
36CAELEN-HAUMONT, G.; BEL, B. (2000). Le caractère spontané dans la parole et le chant improvisés : de la structure intonative au mélisme. PArole, n° 15-16, p. 251-302.
http://hal.archives-ouvertes.fr/hal-00256388
Données primaires (corpus)
Grindmill songs of Maharashtra - Chants de la mouture au Maharashtra (sldr000717)
Afin de mieux définir le genre spontané, cette étude se propose d'en illustrer quelques aspects spécifiques au travers de deux formes d'oralité fort éloignées l'une de l'autre, le dialogue de parole française et la poésie improvisée en langue marathi par des chanteuses paysannes indiennes. Ces productions sont toutes deux en fait des improvisations à partir de thèmes donnés. Cet article dégage les principales caractéristiques d'une production spontanée au niveau des formes, des fonctions, et des acteurs mis en scène. Nous sommes ainsi amenés à préciser le rôle de la subjectivité en prosodie, et à préciser de manière concrète l'espace, les indices, les contours qui lui sont dévolus. Alors que l'intonation est un processus de globalisation qui exprime une force de cohésion, dans la parole aussi bien que dans le chant, l'excursion prosodique dans le mélisme est une force d'individuation qui met en œuvre une force de dissociation. Sous des formes de variabilité distinctes, propres à ces domaines de communication très différents, nous essayons de montrer que les contours prosodiques mis en œuvre en parole et dans les chants de la mouture, relèvent d'une sorte d'unicité des moyens prosodiques, pour ne pas dire d'invariant.
84CAMPIONE, E.; VERONIS, J. A Multilingual Prosodic Database. Proceedings of ICSLP, 1998.
http://www.elda.org/catalogue/en/speech/doc/1998icslp-database.pdf
Collection
EUROM1 collection (eurom-000741)
We present a prosodic corpus in five languages (French, English, Italian, German and Spanish) comprising 4 hours and 20 minutes of speech and involving 50 different speakers (5 male and 5 female per language). The recordings on which the corpus is based are extracted from the EUROM 1 speech database and consists of passages of about five sentences. The corpus was stylized automatically by an algorithm which factors out microprosodic effects and represents the intonation contour of utterances by a series of target points. Once interpolated by a smooth curve (spline), these points produce a contour undistinguishable from the original when re-synthesized, apart from a few detection errors. A symbolic coding of the 50000 pitch movements of the corpus is also provided, along with the time-alignment of orthographic transcription to signal at word- level. The entire corpus was verified and manually corrected by experts for each language. It will be made available at production cost for research through the European Language Resource Association (ELRA).
81CAVÉ C, MEUNIER, GHIO A, MELLIET J.L, MARCHAL A. Effect of speech conditions and gas mixture on the intelligibility of diver's speech as assessed under real diving conditions at 50 and 100 meters. Proc. of the 3rd European Conference on Underwater Acoustics, 1996, p. 765-770.Données primaires (corpus)
PSH/DISPE - Parole subaquatique et/ou hyperbare (sldr000757)
60CHAN, D.; FOURCIN, A.; GIBBON, D.; et al. EUROM — A Spoken Language Resource For The EU. ESCA. EUROSPEECH'95. 4th European Conference on Speech Communication and Technology. Madrid, September 1995. ISSN 1018-4074
http://www.phon.ucl.ac.uk/resource/eurom1/eurospeech95eurom.pdf
Collection
EUROM1 collection (eurom-000741)
A summary of the progress of development and the current realisation of a CDrom based spoken language resource for 11 languages of the European Union is given; the physical conditions basic to its acquisition are defined and the criteria guiding its poly-language structures briefly outlined.
61CHENTIR, A.; GUERTI, M.; HIRST, D.J. 2008. Classification by Discriminant Analysis of Energy in View of the Detection of Accented Syllables in Standard Arabic. Journal of Computer Science 4 (8): 668-673Données primaires (corpus)
ARABE standard - phrases affirmatives (sldr000745)
Problem Statement: Current algorithms for the recognition and synthesis of Arabic prosody concentrate on identifying the primary stressed syllable of accented words on the basis of fundamental frequency. Generally, the three acoustic parameters used in prosody are: Fundamental frequency, duration and energy. Approach: In this study, we exploited the acoustic parameter of energy by means of a classification by a discriminant analysis to detect the primary accented syllables of Standard Arabic words with the structure [CVCVCV] read by four native speakers (two male and two female). Results: We obtained a percentage of detection equal to 78% of the accented syllables. Conclusion: These preliminary results need to be tested on larger corpora but our results suggest this could be a useful addition to existing algorithms, in the goal of improving systems of automatic synthesis and recognition in Standard Arabic.
144Claire Beyssade, Barbara Hemforth, Jean-Marie Marandin, Cristel Portes. Prosodic Marking of Information Focus in French. Linguistic and Psycholinguistic Approaches to Text Structuring, 2009, Paris, France. 2009.
https://halshs.archives-ouvertes.fr/halshs-00751613
Données primaires (corpus)
Focus en français (sldr000490)
87DE SULAUZE François. 2009. Faits de langues : la transcription de la langue aborigène ‘amis. in E-Renlai Magazine (revue électronique en ligne).
http://www.erenlai.com/index.php?aid=2801
Données primaires (corpus)
Aborigènes de Taiwan : locuteurs amis/chinois en milieu urbain (sldr000018)
This paper is in French, the subject is ‘Amis language transcription’. It is about Taiwan aborigine languages, especially language evolution of the 'Ami people.
From an oral transmission to the creation of a writing system, the 'Amis language went through many changes along with the history of this minority people in Taiwan. The paper attempts to perform a (socio)linguistic analysis: from past to present, we describe how different writing systems were applied. We classify four main periods: the mythical, prehistoric period, when the ‘Amis language was only oral; the chinese period, with the use of chinese characters; the japanese period, trying to apply the katakana system; and the modern period, when romanization starts to spread. Our conclusion is that the writing process has now settled on the Romanised format.
97DE SULAUZE, François. Langues de minorités urbaines à Taiwan. Editions Universitaires Européennes (mars 2011). ISBN-13: 978-6131568947
http://www.editions-ue.com
Données primaires (corpus)
Aborigènes de Taiwan : locuteurs amis/chinois en milieu urbain (sldr000018)
A compléter
139Dimroth, Christine, Rebekah Rast, Marianne Starren & Marzena Watorek (2013). Methods for studying a new language under controlled input conditions: The VILLA project. Eurosla Yearbook 13: 109-138. Amsterdam: Benjamins.
https://benjamins.com/#catalog/journals/eurosla.13.07dim/details
Données primaires (corpus)
VILLA : Varieties of Initial Learners in Language Acquisition - VILLA : Variétés d’apprenants débutants dans l’acquisition des langues (ortolang-000915)
The VILLA project (“Varieties of Initial Learners in Language Acquisition: Controlled classroom input and elementary forms of linguistic organisation”) studies the very first phases of the process of language acquisition and establishes a tight link between learners' achievements in different domains of linguistic knowledge and the input they received. Novice adult and child learners with five different native languages (Dutch, English, French, German, Italian) were exposed to fourteen hours of input in Polish that was provided in a communicative classroom setting. Whereas the exposure conditions and the content of the input were kept constant for all learner groups, the age of the learners and the amount of metalinguistic information provided was varied between groups. Acquisition of different target language properties (phonology, morpho-syntax, discourse-pragmatics) was observed longitudinally through a series of tasks and experiments repeated over time. The paper presents the methodological set-up
of the project and summarizes first results.
100DO, Thi Bich Thuy (2011). Les impacts de la révision collaborative étayée : une recherche-action en didactique de la production écrite en FLE. Thèse de doctorat en Sciences du Langage : Université Aix-Marseille 1.Données primaires (corpus)
Interactions entre pairs lors de la révision collaborative étayée (sldr000772)
Cette recherche-action a pour objectif de mesurer les impacts d’une expérimentation de la révision collaborative étayée en didactique de la production écrite en langues étrangères. Un dispositif d’enseignement de la révision collaborative a été élaboré et expérimenté pendant un semestre dans une classe de vingt-deux étudiants vietnamiens de français langue étrangère. Dans la classe expérimentale, les textes ont été révisés par le pair à l’aide d’une grille de révision collaborative, puis réécrits et corrigés par l’enseignant. Dans la classe de contrôle, les textes ont été écrits une fois et révisés par l’enseignant. Un corpus de textes et rétroactions, des interactions orales entre pairs, des tests, un questionnaire d’auto-évaluation, des entretiens semi-directifs ont été recueillis comme données. Les résultats montrent des impacts significatifs de la révision collaborative étayée sur les stratégies de révision, sur la qualité de la cohérence dans les textes et sur la relation entre le rédacteur et le lecteur. Ce nouveau mode d’apprentissage a été bien évalué par les étudiants.
18FERRÉ, G.; BERTRAND, R.; BLACHE, P.; ESPESSER, R.; RAUZY, S. Intensive Gestures in French and their Multimodal Correlates. Proceedings of Interspeech (2007 août 27-31 : Antwerp, BELGIUM). Interspeech, Antwerp, Belgium: Interspeech. 2007, p. 690-693. Cederom.
http://hal.archives-ouvertes.fr/hal-00173729
Données primaires (corpus)
Vidéos du corpus CID (sldr000027)
This paper relates a pilot study on intensive gestures in French - e.g. gestures which accompany speech and participate in the highlighting of some discourse elements which the paper means to determine. The study is based on spontaneous French informal conversation and the intensive gestures correlates we looked at pertained to the morphological, prosodic and gestural dimensions.
137Garcia, B., L’Huillier, M.-T. et Sallandre, M.-A. (2013).
"CREAGEST : enjeux linguistiques, patrimoniaux et socio-éducatifs d’un grand corpus de langue des signes française", La nouvelle revue de l’adaptation et de la scolarisation n° 64, numéro coordonné par A. Benvenuto et D. Séguillon, éditions de l’INS HEA, 81-91.
Collection
CREAGEST (ortolang-000912)
29GHIO, A.; ANDRÉ, C.; TESTON, B.; CAVÉ, C. PERCEVAL: une station automatisée de tests de PERCeption et d'EVALuation auditive et visuelle. Travaux Interdisciplinaires du Laboratoire Parole et Langage d'Aix-en-Provence (TIPA), vol. 22. 2003, p. 115-133. ISSN 1621-0360.
http://hal.archives-ouvertes.fr/hal-00134194
Outil
PERCEVAL (sldr000010)
Les procédures liées à la réalisation d’un test de perception sont souvent délicates à mettre en œuvre et prennent un temps considérable. Il est donc intéressant d’automatiser autant que possible toutes les opérations nécessitées par ce type d’investigation et de procéder à un recueil informatisé des réponses. Le dispositif que nous présentons répond à ces objectifs. Pour permettre une grande flexibilité, le déroulement de l’expérience est contrôlé par un fichier pilote. Le logiciel se comporte alors comme un interpréteur de commandes qui sont lues dans le fichier sélectionné. Ce type de fonctionnement offre une grande souplesse et permet de réaliser une grande variété de tests tels que décision lexicale, identification lexicale. monhtgring de phonème, gating, catégorisation phonétique, mesure d’intelligibilité et évaluation de la qualité vocale. Un soin particulier a été porté à la précision temporelle du déroulement du programme qui reste un point crucial dans le domaine des tests de perception informatisés.
114GORISCH Jan, ASTESANO Corine, GURMAN BARD Ellen, BIGI Brigitte, PREVOT Laurent. Aix Map Task corpus: The French multimodal corpus of task-oriented dialogue. Proceedings of Language Resources and Evaluation, Reykjavík , Iceland(2014).
http://www.lrec-conf.org/proceedings/lrec2014/pdf/719_Paper.pdf
Données primaires (corpus)
Audio-visual condition of Aix Map Task (sldr000875)
105GRINDA, A. (2011). Le Belvédérois, Lou Barverenc. Éditions de Bergier.Données primaires (corpus)
Lou Barverenc - Grinda (sldr000789)
À partir de souvenirs, d’anecdotes, de contes collectés auprès des anciens, le livre d’Alain Grinda nous révèle que le parler de Belvédère peut s’écrire et se lire, qu’il a une grammaire et un dictionnaire. Cet ouvrage, mémoire de notre patrimoine, constitue un témoignage non seulement de la langue mais aussi de toute une part de la vie d’autrefois. Les amoureux des mots et du langage trouveront nombre d’expressions savoureuses dans ce document linguistique lisible par tous.
57HAYASHI, A.; NISHINUMA, Y. Kontrastive Gesprächsanalyse aufgrund der phonetischen Untersuchung des Schweigens. Proceedings of Deutschsprachiger Japalonogentag (13 : 2006 septembre 12-15 : Bonn, GERMANY). Bonn, Germany: University of Bonn. 2006, p. 52.
http://lpl-aix.fr/article/3112
Données primaires (corpus)
Dialogue français (role-play) (sldr000738)
Die phonetisch-statistische Untersuchung über das Schweigen in der interaktiven Struktur der BITTEN-ABLEHNEN-Sequenz kommt zu folgendem Ergebnis:
a. Bezüglich der Dauer der „silent pause” sind sprachspezifische Tendenzen zu beobachten.
b. Die Länge der Pausen hängt von Geschlecht und Rolle ab.
c. Pausen bei Sprecherwechsels sind je nach Sprache sehr unterschiedlich lang.
92HERMENT-DUJARDIN, S. (2001). L'emphase dans le discours spontané anglais : corrélats acoustiques et prosodiques. Thèse de doctorat de Sciences du Langage : Aix-Marseille I. Sous la direction de Daniel Hirst. Décembre 2001.
http://tel.archives-ouvertes.fr/tel-00010114
Données primaires (corpus)
COEC (Corpus of English Conversation) (sldr000014)
L’emphase a fait l’objet de peu d’études, pour la plupart fondées sur de la parole de laboratoire, c’est pourquoi ce travail, principalement expérimental, a pour objectif de déterminer les paramètres acoustiques et prosodiques les plus révélateurs de l’emphase dans le discours spontané anglais. Afin de décider quels sont les passages ou mots emphatiques dans le corpus de parole spontanée choisi, on opte pour une étude perceptive auprès d’auditeurs anglophones naïfs. Grâce à ces sondages, un degré d’emphase est determiné pour chaque mot, qui sert de point de départ à des analyses acoustiques. L’étiquetage de la base de données en unités rythmiques et en phonétique est réalisé. On procède ensuite à une analyse acoustique des segments, qui confirme l’hypothèse que la fréquence fondamentale, la durée segmentale, l’intensité globale et les pauses sont certainement essentielles dans la perception de l’emphase, et qui permet également de dégager des paramètres autorisant la mise en œuvre d’une analyse statistique. Cette analyse objective est effectuée grâce à un logiciel de statistiques (qui génère des arbres de classification) sur les segments du corpus mais aussi sur chaque locuteur et chaque type de discours, afin de voir si des stratégies se dégagent. Enfin, une étude sur signaux manipulés constitue le pendant de l’analyse statistique. La fréquence fondamentale, les durées segmentales et les pauses sont modifiées tour à tour dans certains segments du corpus. La délexicalisation de ces segments est également entreprise et un nouveau test de perception est mis en place. Ce test perceptif sur signaux manipulés permet d’intégrer le critère du sémantisme qui n’a pu être inséré dans les paramètres pour l’analyse statistique. On peut conclure que l’emphase est une mise en relief inattendue qui marque une implication de la part du locuteur plus importante qu’à la normale grâce à une augmentation de l’énergie dépensée pour prononcer l’occurrence emphatique, et/ou une augmentation de la hauteur et/ou du mouvement mélodique sur cette occurrence.
68HERRY, N.; GINESY, M. Sons, rythme et intonation de l'anglais. Nishinuma, Y. (ed.). Aix-en-Provence: Laboratoire Parole et Langage. 2003, p. 1-80.
http://lpl-aix.fr/article/3488
Outil
PROSODIA (sldr000748)
La méthode qui accompagne PROSODIA, didacticiel pour la prosodie anglaise.
67HERRY, N.; NISHINUMA, Y.; GHIO, A. Prosodia : Auto-apprentissage de la prosodie anglaise. Actes, Environnements Informatiques pour l’Apprentissage Humain (1 : 2003 avril 15-17 : Strasbourg, FRANCE). Strasbourg: ATIEF-ULP. 2003, p. 113-116.
http://hal.archives-ouvertes.fr/hal-00136760
Outil
PROSODIA (sldr000748)
Nous présentons ici PROSODIA, logiciel d’auto-apprentissage de la prosodie anglaise. Ce didacticiel comprend un moteur de traitement phonétique, une base de données de phrases-modèles et une méthode pédagogique. Le moteur effectue entre autres la modélisation de la courbe intonative, des modifications audio-visuelles de cette courbe, ainsi que l’évaluation de la réalisation de l’apprenant. Le logiciel a été testé auprès de 2 groupes : groupe utilisateur du logiciel et groupe témoin. L’ANOVA sur les notes d’examens montre que 3 facteurs sur 6 sont significatifs, mais la supériorité du groupe expérimental n’a pas été significative. En revanche, l’analyse CRUISE des données acoustiques des sujets révèle l’importance du facteur rythmique.
146Horgues, C. & Scheuer, S. (in press). Why some things are better done in tandem? In: J. A. Mompeán & J. Fouz-González (Eds.), Investigating English Pronunciation: Current Trends and Directions. Basingstoke and New York: Palgrave Macmillan.Données primaires (corpus)
SITAF (tandems anglais/français) (ortolang-000939)
This paper reports on the findings from the initial stages of the SITAF research project, launched at the University of Sorbonne Nouvelle-Paris 3 in October 2012. The project, entitled Spécificités des Interactions verbales dans le cadre de Tandems linguistiques Anglais-Français, aims to gather linguistic data, both verbal and non-verbal, from conversational exchanges held by 21 pairs of undergraduate students at the Department of English. The dialogues are both in English and in French, with each “tandem” consisting of a native speaker of English and a native speaker of French, roughly matched for age, interests and communicative needs. The subjects’ interactions were recorded on two occasions separated by a 3-month interval, which provided around 30 hours of data. There are a few aspects to our project that make it a valuable, and fairly unique, contribution to second language acquisition (SLA) research. First of all, we are sampling face-to-face conversations, whereas most studies on tandem learning conducted so far seem to revolve around on-line interactions. Secondly, the dialogues were both audio and video recorded, which allows for multimodal data analysis. Thirdly, the fact that conversational exchanges occur in tandem creates a special communicative and learning environment promoting solidarity and collaboration. The tandem data allows for the analysis of original learning strategies like self-correction, negotiation, requesting and providing assistance, adapting one’s L1. In contrast to the typical L2 learning setting –where certain participants are permanently relegated to the position of novice learners– the hierarchical structure of the tandem is fluid since the expert-learner power relationship evolves as the meeting progresses. The Tandem Corpus offers ample opportunities for various types of analyses and contrastive studies. For instance, the data can be compared with previous research findings about the type of L2 pronunciation errors often leading to communication breakdowns and which native speakers are therefore most likely to correct. Because the study is semi-longitudinal, we will seek to establish which –if any– phonetic problems are amongst the first to disappear and which tend to persist.
127Hsieh, S. K., Su, I. L., Huang, C. R., Pei-Yi, H., Tzu-Yi, K., & Prevot, L. (2007). Basic lexicon and shared ontology for multilingual resources: A sumo+ milo hybrid approach. In Proceedings of OntoLex Workshop in the 6th International Semantic Web Conference.Données secondaires (ressource)
Seediq Ontolex (ortolang-000907)
A common conceptual infrastructure is crucial for multilingual language processing and documentation. Global Wordnet (GWN) was proposed as the common infrastructure for linguistically motivated conceptual representations for all languages. Two critical issues in this line of research are: the scarcity of lexical semantic information (especially from endangered languages), and the lack of a shared conceptual core as the basis of multilingual conceptual representation.
In this paper, we elaborate and formalize the proposal to build a shared core common ontology based on the Swadesh list as a solution to tackle with these two critical issues. Comparing Swadesh lists from different languages allowed us to build a small shared ontology that reflects direct human experience, and can serve as the cross-lingual conceptual core. These micro-ontologized lexicons can be used as seeds for developing a fully-grown and more comprehensive documentation of linguistically motivated ontology for each language. In terms of formalization, we pro- pose that SUMO+MILO has the appropriate level of abstractness and coverage for mapping from basic lexicon to formal ontology.
126Huang, C. R., Prévot, L., Su, I. L., & Hong, J. F. (2007). Towards a conceptual core for multicultural processing: A multilingual ontology based on the Swadesh list. In Intercultural Collaboration (pp. 17-30). Springer Berlin Heidelberg.Données secondaires (ressource)
Seediq Ontolex (ortolang-000907)
The work presented here is situated in the broader project of creating of multilingual lexical resources with a focus on Asian languages. In the paper, we describe the design of the upper-level we are creating for our multilingual lexical resources. Among the current efforts devoted to this issue our work put the focus on (i) the language diversity aiming at massively multilingual resource, and (ii) the attention devoted to the ontological design of the upper level.
145Jean-Marie Marandin. Affordance and ability. How do participants replicate linguistic choices in the lab?. Belgian Journal of Linguistics, John Benjamins Publishing, 2011, 25 (.), pp.30-50.
https://halshs.archives-ouvertes.fr/halshs-00746337/
Données primaires (corpus)
Rep Task (sldr000823)
107Jean-Yves ANTOINE, Sabine LETELLIER-ZARSHENAS, Pascale NICOLAS, Igor SCHADLE (2002). Corpus OTG et ECOLE_MASSY : vers la constitution d’un collection de corpus francophones de dialogue oral diffusés librement. Actes TALN’2002. Nancy, France. Juin 2002
http://www.info.univ-tours.fr/~antoine/parole_publique/articles/2002_TALN_CORP.pdf
Données primaires (corpus)
OTG (sldr000831)
Cet article présente deux corpus francophones de di
alogue oral (OTG et ECOLE_MASSY)
mis librement à la disposition de la communauté sci
entifique. Ces deux corpus constituent la
première livraison du projet
Parole Publique
initié par le laboratoire VALORIA. Ce projet
vise la constitution d’une collection de corpus de
dialogue oral enrichis par annotation
morpho-syntaxique. Ces corpus de dialogue finalisé
sont essentiellement destinés à une
utilisation en communication homme-machine..
116Judith MUZERELLE, Anaïs LEFEUVRE, Jean-Yves ANTOINE, Emmanuel SCHANG, Denis MAUREL, Jeanne VILLANEAU, Iris ESHKOL (2013). ANCOR : premier corpus de français parlé d'envergure annoté en coréférence et distribué librement. Actes TALN'2013. Les Sables d'Olonnes, France [HAL 01016562].
http://www.taln2013.org/actes/www/TALN-2013/actes/taln-2013-court-007.pdf
https://hal.archives-ouvertes.fr/hal-01016562
Données secondaires (ressource)
Corpus ANCOR Centre (ortolang-000903)
Cet article présente la réalisation d’ANCOR, qui constitue par son envergure (453 000 mots) le premier corpus francophone annoté en anaphores et coréférences permettant le développement d’approches centrées sur les données pour la résolution des anaphores et autres traitements de la coréférence. L’annotation a été réalisée sur trois corpus de parole conversationnelle (Accueil_UBS, OTG et ESLO) qui le destinent plus particulièrement au traitement du langage parlé. En l’absence d’équivalent pour le langage écrit, il est toutefois susceptible d’intéresser l’ensemble de la communauté TAL. Par ailleurs, le schéma d’annotation retenu est suffisamment riche pour permettre des études en linguistique de corpus. Le corpus sera diffusé librement à la mi-2013 sous licence Creative Commons BY-NC-SA. Cet article se concentre sur sa mise en œuvre et décrit brièvement quelques résultats obtenus sur la partie déjà annotée de la ressource.
91LEONARDUZZI, Laetitia (2004). La subordonnée interrogative en anglais contemporain. Aix-en-Provence: Presses de l'Université de Provence (PUP). 369 pages.
http://lpl-aix.fr/article/4472
Données primaires (corpus)
Propositions en WH en anglais contemporain (sldr000017)
This book is a study of subordinate interrogative clauses (SIC) in contemporary English. SICs are analysed from a syntactic and semantic, but also pragmatic, point of view, and opposed to other WH- subordinate clauses (free relative, subordinate exclamative, adverbial). Particular attention is given to the contexts in which these clauses appear. This book also considers the questions of subordination and syntactic ambiguity.
88LEONARDUZZI, Laetitia, HERRY, Nadine (2006). Les dislocations à droite : entre détachement et intégration. Quelques aspects syntaxiques et prosodiques. Actes du Colloque de l’ALOES, mars 2006 (13 pages).
http://lpl-aix.fr/article/4457
Données primaires (corpus)
Corpus de Dislocations à droite en anglais (sldr000016)
In this paper, we try to see the relations between syntax and prosody concerning right dislocations (RD). An RD (for instance “Julie” in “I know her, Julie”) is from a syntactic point of view both integrated into the sentence containing the co-referential pronoun (her), and detached. From the point of view of prosody, we find the same ambivalence : the absence of pauses before the RD integrates the RD into the beginning of the sentence, but its low pitch separates it from the rest of the sentence.
142LEONARDUZZI, Laetitia; HERRY, Nadine (2006). Les dislocations à droite : entre détachement et intégration. Quelques aspects syntaxiques et prosodiques.
http://lpl-aix.fr/article/4457
Données primaires (corpus)
Corpus de Dislocations à droite en anglais (sldr000016)
Nous avons cherché à savoir comment la dislocation à droite (DD) se manifestait d’un point de vue prosodique dans un corpus d’écrit lu, et d’une façon plus générale s’il était possible d’établir un parallèle entre la syntaxe de la DD et sa prosodie. Dans ce but, nous avons mesuré la hauteur de la voix, analysé les pauses et enfin décrit les patrons intonatifs sur plus de 120 exemples.
58MAKASSO, E.-M. Intonation et mélismes dans le discours oral spontané en bàsàa. Thèse de doctorat de Sciences du Langage : Aix-Marseille Université. Sous la direction de Geneviève CAELEN-HAUMONT. Novembre 2008.
http://lpl-aix.fr/article/3399
Données primaires (corpus)
Bàsàa - oral spontané (sldr000737)
Ce travail, qui se consacre à la prosodie du bàsàa, une langue bantoue à tons parlée au Cameroun, souscrit à une longue tradition d’analyse prosodique développée depuis plusieurs années au Laboratoire Parole et Langage : Prosodie, formes et fonctions.
Les phénomènes prosodiques envisagés au premier plan sont l’intonation et le mélisme. Cette dernière notion, d’inspiration musicale et adaptée en linguistique par Caelen-Haumont et Bel (2000), renvoie à une vaste excursion de la courbe mélodique au cours de l’articulation d’un mot ou d’un groupe de mots. Cette notion se manifeste sur le plan prosodique par une proéminence lexicale dont les auteurs attribuent l’origine à l’expression de la subjectivité des locuteurs. Après une application du concept de mélisme au français et à l’anglais, l’adaptation du concept en bàsàa nous montre une juxtaposition du mélisme sur les autres phénomènes prosodiques de la langue, dont le ton et l’intonation. [...]
80MARCHAL A, MEUNIER C. A Database of subaquatic and hyperbaric speech : PSH/DISPE. The Journal of the Acoustical Society of America, 93, 5, May 1993, p. 2990-2993.
http://dx.doi.org/10.1121/1.405820
Données primaires (corpus)
PSH/DISPE - Parole subaquatique et/ou hyperbare (sldr000757)
The present article describes a French and English divers' speech database, now implemented and available on a CDROM. This database complies with the SAM EUROPEC standards. It consists of acoustic signal files and associated files which provide information about the speakers and recording conditions. A database management system is used for an easy and fast retrieval of the speech items recorded at various depths and with specific diving equipment.
93MARCHAL, A.; HARDCASTLE, W.J. ACCOR: Instrumentation and database for the cross-language study of coarticulation. Language and Speech, 36:137-153, 1993.
http://www.ncbi.nlm.nih.gov/pubmed/8277805
Données primaires (corpus)
ACCOR-EN (sldr000379)
An unavoidable problem in speech technology, particularly in the development of robust automatic speech recognition systems, is the extreme variability in the acoustic attributes of segments. Segments are highly sensitive to context and bear little resemblance to their intrinsic characteristics manifested when they are uttered in isolation. However, the problem can become tractable if we model the linguistic and physiological aspects of coarticulatory processes, the main source of systemic variability at the segmental level.
86MEUNIER, C.; ESPESSER, R. Vowel reduction in conversational speech: the role of lexical factors. Journal of Phonetics.Données primaires (corpus)
Vidéos du corpus CID (sldr000027)
This study deals with "vowel reduction", i.e. an undershoot phenomenon (unreached targets) related to shortened durations, which leads to a minimised vowel space. Our aim is to evaluate the role of vowel position in the word, word frequency and word movpho-qy~tactic category in the duration and formant values of 72620 vowels (16 speakers) extracted from a conversational speech corpus. As shown in several studies, we expected that reduced vowels would be more present in high frequency words and function words. Results show a clear lexical rhythmic pattern, with reduced vowels in internal syllables, and unreduced ones in final syllables, on the basis of duration and spectral values. Moreover, a clear effect of lexical category was observed: vowels are more reduced in function words than in content words. The frequency effect is more complex and disappears within each word category, except for content words. We suggest that frequency effect may be attributed to an effect of the frequency of word category.
73MEUNIER, C.; ESPESSER, R.; FRENCK-MESTRE, C. Aspects phonologique et dynamique de la distinctivité au sein des systèmes vocaliques: une étude inter-langue. Actes, Journées d'Etude sur la Parole (JEP) (26 : 2006 juin 12-16 : Dinard, FRANCE). Rennes: Irisa, Afcp, Isca. 2006, p. 333-336.
http://hal.archives-ouvertes.fr/hal-00133547
Collection
Collection de corpus trilingue français/anglais/espagnol (sldr000740)
Dans ce travail nous explorons différentes causes de la variation phonétique. L'analyse d'un corpus multilingue de plusieurs types de parole nous permet d'observer une distinctivité variable des voyelles de chaque système en fonction du contexte de production. Cette variabilité peut être attribuée 1/ à la spécificité des systèmes vocalique, 2/ à la quantité d'information véhiculée dans le message linguistique.
72MEUNIER, C.; ESPESSER, R.; FRENCK-MESTRE, C. Phonetic variability as a static/dynamic process in speech communication: a cross linguistic study. Laboratory Phonology (LabPhon) (10 : 2006 juin 29-juillet 1 : Paris, FRANCE). 2006, p. 129-130.
http://hal.archives-ouvertes.fr/hal-00142930
Collection
Collection de corpus trilingue français/anglais/espagnol (sldr000740)
This study is a cross-linguistic investigation of qualitative and quantitative variations due to 1/ the structure of vocalic system, 2/ the amount of context within speech message. We hypothesize that phonetic distinctivity of vowels in a language is relative to 1/ the properties of the phonological system, 2/ the amount of informational context. Three languages (Spanish, French and English) were analyzed in three different types of speech (isolated vowels, within words and within texts). Results show 1/ centralization in the three vocalic systems relative to the amount of context, 2/ an increase of vowel dispersion also due to an increase of context information.
65MEUNIER, C.; FRENCK-MESTRE, C.; LE BESNERAIS, M. Vowel variability in speech production context: a cross linguistic study. Phonetics and Phonology in Iberia (PaPI) (2005 juin 20-21 : Barcelone, UNITED KINGDOM). 2005.
http://lpl-aix.fr/article/2221
Collection
Collection de corpus trilingue français/anglais/espagnol (sldr000740)
The great amount of variation in speech production is an heterogeneous phenomenon which can be explained by many different factors. One of them could be the way phonological systems are structured. Thus strucural variations may be determined by the characteristics of each phonological system (number de phonemes, architecture of features in the system, prosodic structure, syllabic structure, phonotactics, phoneme frequencies, etc). The objective of the present paper is to understand whether the density of a vowel system, in other words the large or small number of vowels in the language, plays a significant role in vowel production. One hypothesis could be that speakers adapt their productions as a function of the number of vowels in their system, to occupy the entire space. A study performed by Manuel and Krakow (1984) showed that the tolerance for variation in the production of a vowel is lesser in a language with a filled vocalic system. On the contrary, Maddieson & Wright (1991) observed very few variation in a low density system (three vowels).
We plan to compare the production of vowels by French, Spanish and English speakers. In English, there are between 13 and 15 oral vowels while French distinguishes some 10 or 12. The density of these two systems is therefore similar, but the specific vowels in each differ considerably. In contrast, Spanish has a relatively sparse inventory, with only 5 vowels, but within this inventory we find the same vowels as in French and English (/a/, /e/, /i/, /o/ and /u/). These three languages thus offer the opportunity to distinguish the effects of density, without a concomitant difference in the phonological nature of the vowels present in the two systems (French and Spanish), from the effect of differing inventories of vowels within comparably dense systems (French and English).
In a previous study (Meunier, 2003), we observed that Spanish speakers produced smaller category areas than English ones. For Spanish speakers, there was basically no overlap between vowels as their number is lesser within the same global space : the density of the vowel system does not appear to have an impact upon the production of vowels. This observation goes against the hypothesis which predicted a larger production area for systems with fewer vowels. Nevertheless, this study was based on the analysis of isolated vowels: the controlled nature of the situation should have reduced variation.
In the present study, we compared vowels (Spanish, English and French) in three different contexts: isolated, in monosyllabic words, in two short texts. This corpus allowed us to evaluate the variability of vowel production according to the degree of control in speech production. First results show that, English vowel variation does not increase in less controlled situation (word and text) while Spanish and French vowel variation increased in text context. These results suggest that, in lesser controlled speech, the entire space of vocalic system is occupied whatever the density is. Density may be one of the parameters which can play a role on vowel variation. We hypothesize that vowel variation could be due to several properties of the phonological systems.
71MEUNIER, C.; FRENCK-MESTRE, C.; LELEKOV-BOISSARD, T.; LE BESNERAIS, M. La perception des systèmes vocaliques étrangers: une étude inter-langues. Actes, Journées d'Etude sur la Parole (JEP) (25 : 2004 avril 19-22 : Fès, MOROCCO). Aix-en-Provence: LPL. 2004, p. 377-380.
http://hal.archives-ouvertes.fr/hal-00142948
Collection
Collection de corpus trilingue français/anglais/espagnol (sldr000740)
L'objectif de ce papier est de comprendre si la "densité" du système vocalique d'une langue, en d'autres termes, le nombre de voyelles dans la langue, joue un rôle dans la perception vocalique. Les résultats d'une expérience d'identification dans trois langues (français, anglais et espagnol) tendent à montrer que les sujets espagnols sont capables, sans hésitation, de catégoriser des stimuli absents de leur espace de production. En revanche, les résultats des sujets anglais montrent une très grande difficulté dans la tâche de catégorisation. Les résultats des sujets français sont intermédiaires. Nous concluons qu'un nombre peu élevé de voyelles dans le système vocalique facilite la tâche de catégorisation des sujets. De plus, le système anglais semble être plus complexe en ce qui concerne le type d'indices nécessaires pour identification des voyelles.
70MEUNIER, C.; FRENCK-MESTRE, C.; LELEKOV-BOISSARD, T.; LE BESNERAIS, M. Production and perception of vowels: does the density of the system play a role? Proceedings of International Congress of Phonetic Sciences (ICPhS) (15 : 2003 août 3-9 : Barcelone). Barcelone, Espagne: Université Autonome de Barcelone. 2003, p. 723-726.
http://hal.archives-ouvertes.fr/hal-00142978
Collection
Collection de corpus trilingue français/anglais/espagnol (sldr000740)
The objective of the present paper is to understand whether the "density" of the vowel system of a language, in other words the large or small number of vowels in the language, plays a significant role in the production and perception of vowels. Three languages (French, English and Spanish) are analysed. This work rests upon the comparison between speech production and the cognitive processing of linguistic units. Two different methodologies were employed in this aim : observation of phonetic productions and analyses of behavioural measures. First results lead us to hypothese that perception units can be larger than production units. In other words, the density of a vowel system seems to influence vowel perception but not vowel production.
69MEUNIER, C.; MEYNADIER, Y.; ESPESSER, R. Voyelles brèves en parole conversationnelle. Actes, Journées d'Etude sur la Parole (JEP) (27 : 2008 juin 9-13 : Avignon, FRANCE). 2008, p. 97-100.
http://hal.archives-ouvertes.fr/hal-00292408
Données primaires (corpus)
Vidéos du corpus CID (sldr000027)
Ce travail porte sur le phénomène de réduction vocalique dans la parole spontanée. Des analyses automatiques et manuelles ont été menées sur un large corpus de parole conversationnelle (CID) afin d'étudier les voyelles très brèves. L'analyse manuelle révèle que ces voyelles très brèves sont plus souvent présentes dans des mots fonction que des mots de contenu. Elles se trouvent essentiellement dans des mots monosyllabiques. Enfin elles montrent une grande dispersion dans leur réalisations acoustiques.
108Moñino, Yves. 1988. Lexique comparatif des langues oubanguiennes. Paris: Geuthner.Données primaires (corpus)
Ngbugu digital wordlist: Archival form (sldr000833)
115MUZERELLE, J.; LEFEUVRE, A.; SCHANG, E.; ANTOINE, J.-Y; PELLETIER, A.; MAUREL, D.; ESHKOL, I.; VILLANEAU, J. (2014). ANCOR_Centre, a Large Free Spoken French Coreference Corpus: description of the Resource and Reliability Measures. LREC'2014, 9th Language Resources and Evaluation Conference., May 2014, Reyjavik, Iceland.
http://hal.archives-ouvertes.fr/hal-01075679
Données secondaires (ressource)
Corpus ANCOR Centre (ortolang-000903)
This article presents ANCOR_Centre, a French coreference corpus, available under the Creative Commons Licence. With a size of around 500,000 words, the corpus is large enough to serve the needs of data-driven approaches in NLP and represents one of the largest coreference resources currently available. The corpus focuses exclusively on spoken language, it aims at representing a certain variety of spoken genders. ANCOR_Centre includes anaphora as well as coreference relations which involve nominal and pronominal mentions. The paper describes into details the annotation scheme and the reliability measures computed on the resource.
66NISHINUMA, Y. Prosodia: A Prosody Tutor and Learning Evaluation Program. Seminar of Speech sciences UFMG (2007 mai 28-29 : Belo Horizonte, BRAZIL). 2007, p. 1-35.
http://lpl-aix.fr/article/3123
Outil
PROSODIA (sldr000748)
A brief slide presentation of PROSODIA
56NISHINUMA, Y.; HAYASHI, A. Phonetic Aspects of Silent Pauses in Role-Play Dialogues: Data from Japanese, German, and Korean. Chuo Journal of Language and Litterature, no. 98. 2006, p. 339-361.
http://lpl-aix.fr/article/2747
Données primaires (corpus)
Dialogue français (role-play)sldr000738)
近年,ポーズに関する研究は,異なる専門分野の理論的要請や,さまざまな応用の必要性に応じて,分析が多様化している.話し言葉の本質解明にあたっては,音声学,言語学の立場からポーズを分析対象とする研究が増えているばかりでなく,音声の合成や自動認識,言語治療などの応用面においてもポーズに対する理解が必要とされている.このような状況に鑑み,実験データの採集にあたっても,読話(read speech)だけではなく,自然発話,対話が取り上げられるなど,質・量とも変化している.
106Pascale NICOLAS, Sabine LETELLIER-ZARSHENAS, Igor SCHADLE, Jean-Yves ANTOINE, Jean CAELEN (2002). Towards a large corpus of spoken dialogue in French that will be freely available: the “Parole Publique” project and its first realisations. Actes LREC’2002. 3rd european conference on language resources and evaluation. Las Palmas de Gran Canaria, Espagne. Mai 2002
http://www.info.univ-tours.fr/~antoine/articles/2002_LREC_CORP.pdf
Données primaires (corpus)
OTG (sldr000831)
This paper presents two corpora (OTG et ECOLE_MASSY) which are the first delivery of the Parole_Publique (in English : Public Speech) project held by the VALORIA laboratory. This project aims at the achievement of a large corpus (orthographic transcription and morpho-syntactic annotation) of spoken French dialogues. It is primarily intended for researches on man-machine communication
and will gather various types (human-human, Wizard of Oz, man-machine) of dialogues restricted to several specific tasks. The Parole Publique corpus will be freely distributed on the WWW
113Perdue, C. (ed.) (1993). Adult Language Acquisition. Vol 1: Field Methods. Cambridge University PressDonnées primaires (corpus)
Berlin (ortolang-000893)
90PETITJEAN, C. (2008). Représentations linguistiques et accents régionaux du français. In Journal of Language Contact, Vol. Varia 1, 1, 29-51.
http://cgi.server.uni-frankfurt.de/fb09/ifas/JLCCMS/issues-amp-articles/varia-i/jlcvaria-1-2008-03/details_en.html
Données primaires (corpus)
Corpus Représentations linguistiques Marseille 2007 (sldr000019)
L’étude des représentations linguistiques (RL) constitue aujourd’hui un regard indispensable sur la dynamique des langues. Parce qu’elles portent sur la langue de la communauté d’appartenance, mais également sur celles des groupes extérieurs à cette communauté, les RL sont simultanément actrices et révélatrices des contacts entre langues et entre communautés linguistiques. Nous nous intéresserons ici à la question des français régionaux, et plus spécifiquement aux habitudes articulatoires inhérentes à ces derniers. Ce faisant, il s’agira d’observer la manière dont les locuteurs gèrent conjointement la diversité et la confrontation des pratiques linguistiques. L’observation et l’analyse d’un corpus constitué d’entretiens réalisés avec des locuteurs marseillais nous permettront d’éclairer les stratégies définies par les locuteurs afin de co-construire les connaissances communes leur permettant d’appréhender l’hétérogénéité de leur paysage linguistique et de partager, in fine, une même réalité linguistique. L’appréhension de l’altérité sociale et linguistique, ainsi que la considération des enjeux identitaires en découlant, reposeront sur une approche des processus linguistiques impliqués dans la co-construction des RL dans le champ discursif.
89PETITJEAN, C. (2009). Représentations linguistiques et plurilinguisme. Thèse de doctorat. Université de Provence/Université de Neuchâtel.
http://tel.archives-ouvertes.fr/tel-00442502/
Données primaires (corpus)
Corpus Représentations linguistiques Marseille 2007 (sldr000019)
To date, the notion of Language Representation (LR) represents a major theoretical challenge for sociolinguistics. Though the prime focus in the domain has been on the variational dimension of language productions, it has also been observed that the analysis of language dynamics can not be limited to the study of language practice: the shared social knowledge that speakers have about their mother tongue is essential for the way a given social group deals with the heterogeneous nature of its language environment. The work undertaken in this realm proposes to specifically approach LR from a sociolinguistic point of view, both on theoretical and methodological grounds: what is LR? How can it be observed and described? Based on a study of the representation of multilingualism in two peripheral French-speaking communities, we will investigate the representational variations in form and content as well as the constraints which underlie these variations. We will more specifically focus on the institutional side of the management of a language environment, in terms of type of language policy: can a given type of policy affect a community's LR? Conversely, can the efficiency of a given language policy be affected by LR? While this study aspires to be part of fundamental research into the functioning of language representations, it also has an applied side, in that it generates results which may contribute to shed some light on the decisional choices made in the context of public language policies.
101PITT, Mark; Keith JOHNSON; Elizabeth HUME; Scott KIESLING; William RAYMOND (2005). The Buckeye Corpus of Conversational Speech: Labeling Conventions and a Test of Transcriber Reliability. Speech Communication, 45, 90-95.
http://buckeyecorpus.osu.edu/pubs/BuckeyeCorpus.pdf
Données primaires (corpus)
Buckeye Corpus of Conversational Speech (sldr000776)
This paper describes the Buckeye corpus of spontaneous American English speech, a 307,000-word corpus containing the speech of 40 talkers from central Ohio, USA. The method used to elicit and record the speech is described, followed by a description of the protocol that was developed to phonemically label what talkers said. The results of a test of labeling consistency are then presented.
7POITEVIN, G. (Ed. BEL, B.) Ambedkar ! Des Intouchables chantent leur libérateur. Paris : Karthala, 2009.
http://www.karthala.com/2077-ambedkar-des-intouchables-chantent-leur-liberateur-poetique-dune-memoire-de-soi-9782811102166.html
Données primaires (corpus)
अांबेडकर - Ambedkar (sldr000011)
Ce texte de Guy Poitevin, édité à titre posthume, est un essai de compréhension d\'un phénomène contemporain de poésie orale chantée en Inde : de simples paysannes de caste intouchable Mahar y chantent, au Maharashtra, leur libérateur Bhimrao Ramji Ambedkar (1891-1956) pendant la mouture matinale de la farine.
L’auteur nous livre ces « actes de parole » dans une lecture linéraire qui construit une épopée : « le Chant d’Ambedkar ». Car les femmes chantent, en faisant tourner leur moulin, dans cet espace intemporel d’intimité domestique qui précède le lever du jour. Il nous fait partager son émerveillement devant les jeux de contrastes et de correspondances auxquels se livrent les chanteuses, depuis la structure de versification jusqu’aux niveaux lexical et phonologique. L’étude se poursuit en annexe par une analyse mélodique et prosodique (temporalité, espace tonal, mélismes) illustrée par des mélogrammes et documents sonores.
82POITEVIN, G. Le champ du dire et le soi de la parole. In (G. Poitevin) Sortir de la sujétion - Essais sur la désubordination des parias de l\'Inde, femmes et intouchables. Paris : L\'Harmattan, 2001, p. 201-258.
http://sldr.org/doc/000759/DireParoleGangubai.pdf
Données primaires (corpus)
गंगुबाई - Gangubai (sldr000759)
Le dire mobilise les ressources de la voix — intonation, mélodie, parole — dans un effort pour énoncer les affections de la chair. L’inscription du soi n’est plus ici principalement dans le sentiment ni les mouvements des affections, qui en restent malgré tout l’assise. En cherchant à dire celles-ci, le “je” s’explore, se déploie, se réfléchit dans une articulation, fait son « invention » qui n’est point simple inventaire mais témoignage, constitution et assertion de soi dans une prise de parole en première personne, une énonciation.
35POITEVIN, G., RAIRKAR, H. Stonemill and Bhakti. Contemporary Researches in Hindu Philosophy and Religion, No. 3. New Delhi: D.K. Printworld, 1996.Données primaires (corpus)
Grindmill songs of Maharashtra - Chants de la mouture au Maharashtra (sldr000717)
Tangible patrimony usually attracts attention and efforts of preservation. Intangible cultural traditions do often go with the winds of history when their social and material setting disappears. Such is the case with the songs that women in India, while grinding before dawn, have kept singing for ages on their hand-mill. Aside from the male society, they hoarded up for themselves a non-material matrimony. Today, though, motor driven flour-mills have put to rest these voices of silence, their legacy remains with them: immense and immemorial, purely feminine and oral, anonymous and personal, collective and intimate. Words from the heart, they glitter like flames in the domestic hearth.
This book is the first attempt of systematic cultural-anthropological study of that unique tradition. It offers keys to apprehend it. Why should this tradition, first of all, originate from a shared compulsion to “open up one’s heart”? This differentiates the women singers’ intentionality from the didactic treatment of pundits and sants who make grinding and grindmill the allegory of an advaitic bhakti. For women — Lakshmis dedicated to serve the Fortune of their family and its lineage — life in plenty is their raison d\'être. When preachers and swamis advocate a holy insensibility to earthly things and fellow human beings, the work of grinding — epitome of woman’s office — carries worldly utopias of abundance and reveals a quest for salvation through bonds of affective attachment. [...]
83POITEVIN, G.; RAIRKAR, H. Bhakti, a Faith for Rehabilitation. In (B. Bel, J. Brouwer, B. Das, V. Parthasarathi, G. Poitevin, eds.) Communication Processes, 2: The Social and the Symbolic. New Delhi: Sage, 2008, p.170-215.
http://sldr.org/doc/000759/BhaktiAFaithForRehabilitation.pdf
Données primaires (corpus)
गंगुबाई - Gangubai (sldr000759)
This study deals with Bhakti as a modality of self-assertion. The process is an inversion from a state of human non-entity to an assurance of recognition and a sense of existential sanctity despite a context of deprivation and estrangement socially enforced by society.
109RAUZY, Stéphane; BLACHE, Philippe (2009). Un point sur les outils du LPL pour l’analyse syntaxique du français. Actes, Journée ATALA Quels analyseurs syntaxiques pour le français ? (2009 octobre 10 : Paris, FRANCE). 2009, p. 1-6
http://hal.archives-ouvertes.fr/hal-00433879
Outil
MarsaTag (sldr000841)
Nous présentons ici les différents modules et ressources développés au Laboratoire Parole et Langage pour l’analyse syntaxique du français. Ces outils sont basés sur des approches symboliques ou stochastiques, selon les caractéristiques de la tâche à effectuer. La chaîne de traitement est composée d’un segmenteur par règles et d’un lexique couvrant du français qui alimentent l’entrée d’un étiqueteur morphosyntaxique probabiliste. Deux analyseurs de surface, l’un symbolique et l’autre stochastique, sont ensuite présentés. Un analyseur stochastique profond, récemment développé, est aussi proposé.
112RAUZY, Stéphane; MONTCHEUIL Grégoire; BLACHE, Philippe (2014). MarsaTag, a tagger for French written texts and speech transcriptions. Second Asia Pacific Corpus Linguistics Conference (2014 March 7-9 : Hong Kong). 2014.Outil
MarsaTag (sldr000841)
Missing abstract
25ROLLAND, G. Automatic stylisation of the fundamental frequency F0 using MOMEL. Documentation and translation into a Praat script. ICP - november 2000
http://www.icp.inpg.fr/~loeven/Praat/momel_english.html
Outil
MOMEL (sldr000031)
The Praat script for MOMEL (MELodic MOdelisation), an algorithm proposed in 1991 by Daniel Hirst and Robert Espesser from the Institut de Phonétique d'Aix, gives a representation of the melodic curve, which characterises the temporal variations of the laryngeal frequency, by the way of a quadratic spline function.
F0 variations can be considered as the superposition of two phenomena : the macroprosodic effects which can be considered as the elocution intonative choice, and microprosodic effects, which are linked to the phonetic constituents of the sentence. The macroprosody allows to apply a global approach of the melodic curve when the microprosody gives local variations. It is often the case with consonants like [f], [s], [ch] that are most of the time unvoiced. For this reason, the F0 curve will reach discontinuities with such consonants.
94THOMAS, A.; GASQUET-CYRUS, M.; BEL, B. (2011). Revitalisation ou reniement de la langue locale ? L’élaboration problématique d’une graphie pour le « patois » de Valjouffrey. Colloque international AULF et LESCLaP-CEP : Standardisation et vitalité des langues de France. (2011 octobre 13-14 : Amiens, FRANCE)
http://lpl-aix.fr/article/4712
Données primaires (corpus)
Valjouffrey - corpus 2010-2011 (sldr000764)
Dans le cadre d’un projet « Corpus en langues de France » financé par la DGLFLF, nos travaux de collecte sur le terrain de Valjouffrey (Isère) nous ont amené à élaborer, à la demande des locuteurs, une graphie de cette variété d’occitan nord-alpin aux franges de la zone francoprovençale.
Diverses possibilités de graphie s’offraient à nous : occitane, provençale, francoprovençale (Stich et autres), Conflans… Or, le premier choix des locuteurs était d’élaborer une graphie purement phonétique conforme selon eux à l’identité locale (marquée par des spécificités linguistiques), chargée de graphèmes emblématiques (« ch », « k »…), quitte à les démarquer des autres variétés occitanes ou francoprovençales pourtant typologiquement proches aux alentours. Tout autre choix était perçu par eux comme un reniement de leur identité locale. Il nous paraissait pourtant plus pertinent de doter la variété d’une graphie qui, tout en respectant certaines caractéristiques locales, laissait la porte ouverte à une standardisation potentielle à plus grande échelle, préalable obligatoire à tout projet de revitalisation, surtout dans cette zone marquée par une forte fragmentation dialectale.
Nous verrons dans quelle mesure notre implication sur le terrain avec les locuteurs nous a amenés à négocier avec eux un compromis entre standardisation de la langue et possibilités de revitalisation, dans une réflexion à la fois technique et socio-anthropologique.
79VION, Monique; COLAS, Annie. On the use of the connective "and" in oral French narration: A developmental study. Journal of Child Language 31 (2004) 399-419
http://hal.archives-ouvertes.fr/hal-00134180
Données secondaires (ressource)
Narrations - gestion de la cohésion du discours (sldr000754)
This study deals with the use of the connective "and". It is part of a larger project aimed at assessing the impact of cognitive processes (memory-based and/or inferential) on the establishment of referential links. Seven- to eleven-year-old children who were native speakers of French told "silent" two-character comic strip stories to a same-age peer. In the consecutive-display condition, the comic strip was in booklet format with one frame per page, whereas in the simultaneous-display condition, allframes were on the same page. In the arbitrary-link condition, the events in each comic strip, although presented as a sequence, could have occurred in any order, whereas in the ordered-link condition, the order of the events could not be changed. In the maintained-topic condition, the materials were designed to induce a thematic subject right after the first frame (by the repeated presence of the same character in every picture, up to and including the last one), whereas in the changed-topic condition, the other character appeared alone in the last frame. The analysis focused on cases where and was used at the beginning of the narration of last frame to change the text pattern established so far. The results showed that and was often used in this way in the experimental condition that facilitated event interconnection. In this condition, the 9-year-olds employed and in co-occurrence with another connective to mark the end of the story, whereas the 11-year-olds mainly used it when the topic changed. The discussion deals with the strategic use of "and".
78VION, Monique; COLAS, Annie. Using connectives in oral French narratives: Cognitive constraints and development of narrative skills. First Language 25, 1 (2005) 39-66
http://hal.archives-ouvertes.fr/hal-00134182
Données secondaires (ressource)
Narrations - gestion de la cohésion du discours (sldr000754)
This study deals with the use of connectives in oral French narration. Seven- to eleven-year-old native speakers of French told "silent" comic strip stories involving two characters to a same-age peer. The comic strips differed from each other by the display mode (consecutive vs. simultaneous), the type of event sequence (arbitrary vs. ordered), and thematic continuity (vs. discontinuity). The analysis concerns the part of the children's narrations where the same character is carrying out a sequence of actions. The results showed that (1) more connectives were used when the speaker could see all of the pictures at once, (2) regardless of the type of sequence, connectives that marked a temporal link outnumbered all others, and (3) thematic continuity promoted temporal-link marking by 7-year-olds and causal-link marking by 11-year-olds. The discussion addresses about the conceptual determinants of the use of connectives, particularly temporal markers, and the developmental findings obtained by manipulating the production conditions.
104Wlodarczak, Simko, Wagner (2012). Temporal entrainment in overlapped speech: Cross-linguistic study. Interspeech 2012.Données secondaires (ressource)
Transcriptions du corpus CID (sldr000720)
In a previous paper we investigated how onsets of overlapped speech in
English are timed with respect to syllable boundaries of the current
speaker. Overlap initiations were found to be more frequent around
syllable boundaries than at other locations within the syllable. In
this paper we extend the previous analysis by reporting on results
from two other corpora in two different languages (French and German).
We found similar trends in all three datasets with an increased
likelihood of an overlap initiation shortly before vowel onsets in the
interlocutor\'s speech.