[fr] Le corpus Les Vocaux est réalisé dans le cadre du projet ORALIDIA (Oralité et diachronie : une voie d’accès au changement linguistique) financé par l'Université de Strasbourg (projet Idex), le laboratoire LILPA (UR1339, Université de Strasbourg) et le laboratoire ATILF (UMR 7118, CNRS & Université de Lorraine). Malgré le développement des corpus oraux, l’accès à des contextes diversifiés d’oral spontané reste difficile, l’entretien étant de loin la situation la plus représentée. Le projet ORALIDIA vise à la constitution d’un corpus inédit de français parlé spontané : les «sms vocaux» ou «vocaux». Ces données sont spontanément produites en dehors de toute enquête ou entretien linguistique, et constituent une voie d’accès à la parole spontanée non surveillée, nécessaire pour la description de la langue naturelle. Ces données sont ainsi le lieu privilégié pour l’étude de la diffusion des formes émergentes ou de leur disparition. A terme, le corpus comportera les fichiers audio, une transcription orthographique, un alignement phonétique au signal, une lemmatisation, une annotation morphosyntaxique et une annotation syntaxique de type UD.
Disciplines :
Languages & linguistics
Author, co-author :
Glikman, Julie ; Université de Liège - ULiège > Département de langues et littératures romanes > Linguistique synchronique du français
Mazziotta, Nicolas ; Université de Liège - ULiège > Département de langues et littératures romanes > Linguistique synchronique du français
Benzitoun, Christophe
Fauth, Camille
Language :
French
Title :
Les Vocaux version 0.0.2
Publication date :
2025
Publisher :
Ortolang, Nancy, Unknown/unspecified
Version :
0.0.2
Technical description :
La version 0.0.2 contient la totalité du corpus, soit 1196 fichiers audio provenant des deux collectes (dont la totalité de la campagne 2021, y compris les extraits). Ces fichiers totalisent une durée de 19h32min49sec, correspondant à plus de 240 000 tokens transcrits. Chaque fichier correspond à un vocal authentique (sauf les extraits de la campagne 2021, identifiés comme tels dans le nom de fichier même et dans les métadonnées). Ces 1196 vocaux constituent la version complète finale du corpus (campagne 2021 et 2022). Certains vocaux reçus ont été écartés de l’étude pour diverses raisons (par ex. présence d’un autre locuteur dans l’enregistrement). Les métadonnées ont été également enrichies par rapport à la précédente version (voir section 8).
Cette livraison inclut :
o Les fichiers audio anonymisés au format .wav
o Le fichier des métadonnées associées aux fichiers au format tableur (.ods, .xlsx et .csv) (voir section 8 Métadonnées)
o Les transcriptions orthographiques au format .txt encodées en UTF8 (voir section 7 Conventions de transcription)
o Le glossaire des mots ou graphies spécifiques au format tableur
o Une version TXM des transcriptions orthographiques associées aux métadonnées et annotées automatiquement en POS via la version Treetager intégrée à l’outil d’importation TXM (attention : ces annotations ne sont pas vérifiées et seront amenées à évoluer dans les distributions suivantes du corpus)
o Une version compilant toutes les transcriptions précédées des métadonnées du fichier dans un seul fichier .txt (compatible Libre Office, Word, NotePad…). Les métadonnées ont été encodées de manière à être exploitable dans le logiciel Lexico (format < … >)
Les fichiers .wav et .txt portent exactement le même nom, dans lequel le premier nombre correspond à l’identifiant locuteur, le deuxième nombre permet d’identifier de manière unique le vocal par un numéro (IDloc_NumVocal)
Note : le corpus étant toujours en cours d’édition, la version distribuée doit être considérée comme une version « alpha » provisoire. Certains choix éditoriaux sont susceptibles d’être modifiés (outre les corrections d’erreurs manifestes). Il convient ainsi de veiller à citer explicitement la version du corpus utilisée pour toute recherche.
Changements depuis la version 0.0.1
La version V.0.0.1 ne contenait que 10h de données. Cette nouvelle version contient la totalité du corpus. Les métadonnées ont été enrichies de plusieurs informations complémentaires (voir section 8). En outre, un certain nombre de problèmes ont été corrigés pour l’ensemble du corpus (y compris les fichiers déjà présents dans la version précédente) :
Encodage unique du corpus en UTF8
Uniformisation des apostrophes en un même caractère unique
Uniformisation des conventions de transcription pour les apocopes : systématiquement transcrites sans apostrophe
Modification des balises (voir section 7.4)
Modification des conventions de transcription des amorces : notées par un tilde dans cette version (anciennement notées par un tiret dans V.0.0.1)
Uniformisation des conventions orthographiques en faveur de la nouvelle orthographe, avec corrections systématiques (en particulier pour les chiffres)