Le programme Corpus de la parole du ministère de la culture et de la communication a pour but de valoriser le patrimoine linguistique de la France. Il donne accès en ligne à des fonds sonores transcrits et numérisés, en français et dans différentes langues parlées sur le territoire national, en métropole et outremer. Ces langues sont considérées comme "Langues de France".

Ces corpus offerts à tous permettront de mieux appréhender la richesse de ce patrimoine linguistique.

On pourra :
- découvrir ces langues à partir d’un parcours sonore ;
- découvrir comment ces données ont été produites et comment on peut les exploiter.

Ce site est destiné aux curieux, aux amateurs avertis, aux chercheurs.

Nota bene
Séminaire "Le document sonore" - campus d’Orléans:

JPEG

Prochaine séance, le jeudi 5 avril 2012

John Coleman (British National Corpus, Oxford University)

“Mining a Year of Speetch”

Le projet “Mining a Year of Speech” (exploiter un an de discours), porté par une équipe du British National Corpus, a permis de créer une technologie de pointe appliquée à l’analyse du langage parlé. Le matériel traité recouvre un corpus audio d’un an de discours en langues anglaises (Royaume-Uni et Etats-Unis), dont le contenu est particulièrement varié : des conversations quotidiennes, des allocutions politiques, des fragments d’histoire orale, etc. L’immense base de données possède un système de reconnaissance vocale autorisant un alignement parfait entre l’enregistrement sonore et sa transcription phonétique. Cette technologie permet de naviguer dans des corpus audio d’une grande ampleur et de retrouver des segments ciblés de discours extraits de divers contextes. Elle ouvre ainsi de nouvelles perspectives de consultation au public et aux chercheurs désireux d’explorer, sous l’angle de leurs disciplines et centres d’intérêts, les multiples dimensions du langage parlé.

JPEG - 22.7 ko

Informations pratiques :

Les séances du séminaire ont lieu les 2ème jeudi du mois de 14 heures à 16 heures sur le campus d’Orléans, en salle 270 de l’UFR de Lettres et sont ouvertes à tout public. Adresse : 10 rue de Tours – BP 46527 – 45065 Orléans cedex 2. Descendre à la station de tram : Université/L’indien

Actualités:

Evénement à venir :

Conférence de Lou Burnard (MEET, TGE Adonis) : "Encoder l’oral en TEI : démarches, avantages, défis….

Le constat est récurrent : à la variété des formats utilisés se superpose l’incohérence des pratiques conventionnelles de transcription des données orales. En dépit de plus de vingt années de pratiques convergentes, les communautés intéressées préfèrent travailler avec leurs propres outils et conventions “maison”. Pourtant, l’intérêt de se servir d’un format commun, voire pivot, est un sujet qui a été abordé dans la littérature académique à de multiples reprises : Edwards & Lampert (1993), MacWhinney (2007), Schmidt (2011). Ne serait-il pas finalement temps d’établir un format d’échange normalisé pour les données orales ? Cette communication mettra en évidence les propositions actuelles de la TEI pour l’encodage de l’oral, en espérant provoquer un débat sur ce qui reste à définir pour favoriser son utilisation plus répandue dans ce domaine.

Jeudi 10 mai 2012 de 14h à 16h, BnF Site François-Mitterrand-Tolbiac, Paris, Hall Est- petit Auditorium. Entrée libre.

Pour plus d’informations, vous pouvez consulter le carnet de recherche dédié au séminaire "Le document sonore" en suivant ce lien : http://sonore.hypotheses.org



Les acteurs du projet Corpus de la Parole :

Ce site a été réalisé dans le cadre d’un partenariat entre les Fédérations "Typologie et Universaux Linguistiques" (http://www.typologie.cnrs.fr/) et "Institut de Linguistique Française" (http://www.ilf.cnrs.fr/) du Centre National de la Recherche Scientifique - CNRS (http://www.cnrs.fr/) et la "Délégation générale à la langue française et aux langues de France" — DGLFLF (http://www.dglflf.culture.gouv.fr/) ainsi que la "Mission pour la recherche et la Technologie" du Ministère de la Culture et de la Communication ( http://www.culture.gouv.fr/). La coordination de ce projet a été assurée par Benoît Habert et Stéphane Robert, pour le CNRS, et Olivier Baude et Jean Sibille, pour la DGLFLF. La réalisation a été effectuée par Stéphanie Girault et Michel Jacobson dans le cadre du Centre de Ressources pour la Description de l’Oral — CRDO-Paris (http://crdo.risc.cnrs.fr/) du CNRS, ainsi que par Naïma Ghaffari, Nicolas Larrousse pour le RISC et Julie Remfort pour la DGLFLF. Le TGE ADONIS assure l’hébergement du site.

Une quarantaine de chercheurs ont participé à ce projet en fournissant les données que vous allez découvrir. Voir la liste des participants

Des sites qui parlent de la parole
Patrimoine numérique. Catalogue des collections (...)
Projet "Corpus des Langues Parlées en Interaction"
Le « Centre de Ressources pour la Description de l’Oral (...)
I mentions légales I contact I ©