Les Vocaux version 0.0.1

Glikman, Julie; Mazziotta, Nicolas; Benzitoun, Christophe; Fauth, Camille

No full text

Textual, factual or bibliographical database (Computer developments)

Les Vocaux version 0.0.1

Glikman, Julie; Mazziotta, Nicolas; Benzitoun, Christophe et al.

2024

Dataset

Permalink
https://hdl.handle.net/2268/314475

Files (0)Send to Details Statistics Bibliography Similar publications

Files

Full Text

No document available.

Send to

RIS BibTex APA Chicago Permalink X Linkedin

Details

Keywords :

SMS vocal; vocal; CMO; français parlé

Abstract :

[fr] Le corpus Les Vocaux est réalisé dans le cadre du projet ORALIDIA (Oralité et diachronie : une voie d’accès au changement linguistique) financé par l'Université de Strasbourg (projet Idex), le laboratoire LILPA (UR1339, Université de Strasbourg) et le laboratoire ATILF (UMR 7118, CNRS & Université de Lorraine). Malgré le développement des corpus oraux, l’accès à des contextes diversifiés d’oral spontané reste difficile, l’entretien étant de loin la situation la plus représentée. Le projet ORALIDIA vise à la constitution d’un corpus inédit de français parlé spontané : les «sms vocaux» ou «vocaux». Ces données sont spontanément produites en dehors de toute enquête ou entretien linguistique, et constituent une voie d’accès à la parole spontanée non surveillée, nécessaire pour la description de la langue naturelle. Ces données sont ainsi le lieu privilégié pour l’étude de la diffusion des formes émergentes ou de leur disparition. A terme, le corpus comportera les fichiers audio, une transcription orthographique, un alignement phonétique au signal, une lemmatisation, une annotation morphosyntaxique et une annotation syntaxique de type UD.

Disciplines :

Literature

Author, co-author :

Glikman, Julie ; Université de Liège - ULiège > Département de langues et littératures romanes > Linguistique synchronique du français

Mazziotta, Nicolas ; Université de Liège - ULiège > Département de langues et littératures romanes > Linguistique synchronique du français ; Université de Liège - ULiège > Traverses

Benzitoun, Christophe

Fauth, Camille

Language :

French

Title :

Les Vocaux version 0.0.1

Publication date :

2024

Creation date :

2024

Publisher :

Ortolang, Nancy, France

Version :

0.0.1

Technical description :

La version 0.0.1 contient 745 fichiers vocaux provenant des deux collectes (dont la totalité de la campagne 2021, y compris les extraits). Ces fichiers totalisent une durée de 10h19min08sec, correspondant à près de 128 000 mots transcrits. Chaque fichier correspond à un vocal authentique (sauf les extraits de la campagne 2021, identifiés comme tels dans le nom de fichier même). Les vocaux restant sont en cours de traitement. Certains vocaux reçus ont été écartés de l’étude pour diverses raisons (par ex. présence d’un autre locuteur dans l’enregistrement). Cette livraison inclut : - les fichiers audio anonymisés au format .wav - les métadonnées associées aux fichiers au format tableur (.ods et .csv) - les transcriptions orthographiques (voir ‘conventions de transcription’) au format .txt - les fichiers .wav et .txt portent exactement le même nom, dans lequel le premier nombre correspond à l’identifiant locuteur, le deuxième nombre permet d’identifier de manière unique le vocal par un numéro (IDloc_NumVocal) - une version TXM des transcriptions orthographiques associées aux métadonnées Note : le corpus étant toujours en cours d’édition, la version distribuée doit être considérée comme une version « alpha » provisoire. Certains choix éditoriaux sont susceptibles d’être modifiés (outre les corrections d’erreurs manifestes). Il convient ainsi de veiller à citer explicitement la version du corpus utilisée pour toute recherche.

Additional URL :

https://www.ortolang.fr/market/corpora/lesvocaux

Data Set :

https://hdl.handle.net/11403/lesvocaux/v0.0.1

Available on ORBi :

since 20 March 2024

Statistics

Number of views

111 (7 by ULiège)

Number of downloads

0 (0 by ULiège)

More statistics