Jacques Poitou
Accueil
Plan du site
Langages | Ecritures | Ecritures latines | Ecriture chinoise | Numérique | Cryptographie | Typographie | Reproduction et transmission | Censure | Lexique | Jeux
Numérique, multimédia, hypertexte | Réseau | Partage et diffusion | Plagiat | ASCII, Unicode | Traitement de texte | Types de textes numériques

Reconnaissance et synthèse vocales



N.B. Sont seulement abordés ici quelques-uns des problèmes liés à la reconnaissance et à la synthèse vocales. Les aspects techniques n'y sont pas traités.


Reconnaissance vocale

La reconnaissance vocale consiste en la transformation d'un fichier-son contenant de l'oral en écrit numérique. Les applications de cette technologie peuvent être multiples :

– commander des machines par la voix ;
– transformation de l'oral en écrit pour stocker, dicter, traduire ;
– utilisation de la voix pour les systèmes de sécurité (la voix d'une personne comme code d'accès).

La reconnaissance vocale suppose la résolution de multiples problèmes, parmi lesquels on peut distinguer deux grands ensembles.

Les variations de la voix et de la prononciation

Les situations d'énonciation sont variables : un même locuteur ne parle pas avec la même voix selon les destinataires et il peut y avoir aussi des bruits de fond plus ou moins importants. La prononciation varie selon les locuteurs ; elle varie selon le sexe, l'âge, l'anatomie, le dialecte du locuteur. Les processus articulatoires varient pour un même locuteur, selon son état émotionnel, son état de santé (voir normale vs. voix de quelqu'un qui est enrhumé). La prononciation varie selon le contexte (mots isolés vs. énoncé continu, avec nombreux phénomènes de coarticulation).

voirForme phonique

Difficultés techniques de mise en évidence des unités linguistiques dans un flux sonore

Quelles unités linguistiques prendre en compte ? les mots ? (mais ils sont nombreux...) les syllabes ? (elles sont également nombreuses...) les phonèmes ? (ils sont évidemment moins nombreux, mais leur réalisation est liée à de nombreux phénomènes de coarticulation).


Synthèse vocale (Text-to-speech)

Enjeux de la synthèse vocale

La synthèse vocale consiste en la lecture par une voix synthétique d'un texte par l'ordinateur. Les applications possibles de la synthèse vocale sont aussi nombreuses :

– le domaine des répondeurs vocaux (p. ex. pour la lecture de la messagerie) et du dialogue homme-machine ;
– l'utilisation de la synthèse vocale pour les non-voyants ;
– l'utilisation de la synthèse vocale dans le cadre de programmes d'enseignement/apprentissage des langues en autoformation (feedback vocal).

Pour que la synthèse vocale soit utilisable, il ne suffit pas que le texte lu soit intelligible – c'est-à-dire articulé suffisamment correctement pour pouvoir être décodé par l'auditeur. Il faut aussi que la voix ait une qualité suffisante, c'est-à-dire soit suffisamment naturelle pour être acceptable par l'auditeur. Cela implique non seulement une restitution correcte de chaque phonème, mais aussi une coarticulation naturelle de ces phonèmes et une mélodie naturelle.

De plus, dans certaines utilisations, l'amélioration de l'acceptabilité de la parole synthétique passe par le développement de ce qui accompagne la parole naturelle : mouvement des lèvres, mimiques, etc., représentables par des images du locuteur virtuel sur l'écran.

Etapes de la synthèse vocale

La lecture d'un texte numérisé par l'ordinateur nécessite, quelle que soit la complexité des programmes, trois étapes :

– un pré-traitement du texte destiné à en éliminer les "anomalies" ;
– la phonétisation du texte (au sens large), c'est-à-dire l'élaboration, à partir de la représentation graphique, d'une représentation phonique incluant les faits segmentaux et les faits suprasegmentaux ;
– la synthèse vocale de la représentation phonique de l'étape précédente.

Le prétraitement (nettoyage) du texte est destiné à en effacer les anomalies, c'est-à-dire à convertir tous les signes graphiques qui n'ont pas de fonction phonographique directe en suite de graphèmes à fonction phonographique : il s'agit des abréviations graphiques diverses, des logogrammes (y compris les chiffres)

<SVP> – <s'il vous plaît> – [Esvepe]
<XXe siècle> – <vingtième siècle> – [ve~tjEmsjEkl]
<le 5 mars 2003> – <le cinq mars deux mille trois> – [l@se~kmarsd2miltrwa]
<M.> – <monsieur> – [m2sj2]
<a+> – <à plus> – [aplys]

La phonétisation inclut la transformation des suites de graphèmes en suites de phonèmes et le calcul de la prosodie (pauses, courbes mélodiques, accentuation, durée des phonèmes). Ce calcul nécessite une analyse linguistique plus ou moins approfondie du texte. Cette analyse inclut les aspects suivants (qui sont partiellement liés les uns aux autres) :

1. Une analyse morphologique destinée à l'identification des mots, analyse des mots inconnus. Le programme peut s'appuyer sur un lexique ou mettre en jeu des règles d'analyse morphologique.

Ex. des sigles : doivent-ils être épelés ou lus ? On peut établir des règles (les sigles ne comportant que deux lettres (UV) sont généralement lus, ceux ne comportant que des consonnes (SNCF) ne peuvent être qu'épelés, ceux constitués d'une suite CVCV peuvent être lus (PACA), etc. On peut aussi recourir à des lexiques dans lesquels sont stockés des sigles dont l'oralisation est déviante par rapport aux règles (MAIF – [maif] et non [mEf]) ou aussi à des modèles permettant un apprentissage par la machine de la lecture des sigles.

2. Une analyse syntaxique permettant l'étiquetage des unités repérées, la désambiguïsation des homographes (président = substantif [prezidA~] ou verbe [prezid] ? content = adjectif [kO~tA~] ou verbe [kO~t] ?) et surtout la délimitation des syntagmes – indispensable pour le calcul de la prosodie.
Ex.<il le boit>. <le> peut être pronom ou déterminant. l'identification de <boit> comme verbe permet l'identification de <le> comme pronom. A la différence de <le> dans <le monsieur>

3. Une analyse des topogrammes.

Ex. du point, qui peut marquer la fin d'une phrase, mais qui peut être aussi le signe terminal d'une abréviation graphique à oraliser (M.), un séparateur dans des numéros de téléphone (01.03.03.03.03) – il sert alors de démarcatif entre groupes de chiffres et n'a pas de réalisation phonétique propre, ou un séparateur dans les numéros de versions de logiciels (Version 10.6 – [vEr.sjO~.dis.pw9~sis]) – il doit alors être oralisé.

La synthèse vocale consiste en la production des sons correspondant à le représentation phonétique élaborée. Elle consiste, dans son principe, en la superposition de deux types de données : les données segmentales (concaténation de phonèmes) et les données suprasegmentales.

Pour le traitement des données segmentales, la méthode employée par un programme comme CVOX (utilisé par France Telecom pour la lecture vocale de mails) consiste en la transcription de la suite de phonèmes en une concaténation de diphones – les diphones sont des segments allant du milieu d'un phonème au milieu du phonème suivant – ce qui permet une meilleure prise en compte du phénomène de la coarticulation. Les diphones ainsi définis sont ensuite dotés d'une représentation vocale à partir d'une base de données comprenant 1200 diphones. Et un synthétiseur vocal assure la synthèse de ces suites de diphones et des variations prosodiques définies dans le cadre de la phase de phonétisation. (Voir pour plus de précisions Torzec, Moudenc & Emerard in TAL 42 : 17-46).

Les représentations des diphones utilisées pour la synthèse peuvent être issues de différentes voix naturelles (voix masculines, féminines, etc.)

Deux brèves remarques en guise de conclusion...

Toute l'analyse linguistique nécessaire à la synthèse vocale fait partie d'une branche importante (et en plein essor) de la recherche en linguistique : le traitement automatique des langues. Une partie des problèmes qui se posent dans cette analyse linguistique ne sont pas différents de ceux que pose la traduction automatique, certains lui sont spécifiques, puisque l'objectif est l'oralisation d'un texte (la question de la prosodie).

La difficulté de parvenir à des courbes mélodiques pertinentes et les plus naturelles possibles n'est certainement pas pour rien dans le regain d'intérêt de toute une branche de la phonologie – la prosodie et la phonologie métrique –, essentiellement dans les trente dernières années.


Références bibliographiques

TAL [Traitement automatique des langues] 2001, 42, 1. Synthèse de la parole à partir du texte. Avec CD audio retraçant un tiers de siècle de recherches en la matière.


© Jacques Poitou 2017.