Normal view MARC view ISBD view

Modèles de production et reconnaissance automatique de la parole / par Laurence Candille ; sous la direction de Henri Méloni

Auteur principal : Candille, Laurence, AuteurAuteur secondaire : Méloni, Henri, Directeur de thèseAuteur secondaire collectivité : Université d'Avignon, Etablissement de soutenanceType de document : ThèseLangue : français.Pays : France.Éditeur : [S.l.] : [s.n.], 1996Description : 1 vol. (125 f.) : fig. ; 30 cmBibliographie : Bibliogr. f. 119-125.Sujet MSC : 68T10, Computer science -- Artificial intelligence, Pattern recognition, speech recognitionNote de thèse: Thèse de doctorat, informatique, 1996, Avignon
Tags from this library: No tags from this library for this title. Log in to add tags.
Current location Call number Status Date due Barcode
CMI
Salle S
Thèses CAN (Browse shelf) Available 00747-01

Bibliogr. f. 119-125

Thèse de doctorat informatique 1996 Avignon

Les travaux que nous présentons s'inscrivent dans le cadre de l'utilisation de modèles articulatoires pour la Reconnaissance Automatique de la Parole. Une telle méthodologie, encore peu expérimentée, est toutefois potentiellement très intéressante pour représenter de manière concise les phénomènes de coarticulation des sons en parole continue. Nos recherches permettent de répondre partiellement aux difficiles problèmes soulevés par son implémentation. Nous avons choisi pour conduire nos expériences deux modèles de conception très différente : le Modèle acoustique à Régions Distinctives (DRM) et le modèle statistique de Maeda. La première phase importante de nos recherches a consisté à ajuster optimalement les configurations des modèles caractérisant les sons vocaliques du français de manière à minimiser les distances acoustiques aux phonèmes produits par un locuteur. La deuxième étape de nos travaux a permis de doter le modèle de Maeda d'une stratégie de contrôle de ses paramètres de commande. Enfin, nous avons utilisé les deux modèles pour une tâche d'identification de diphones vocaliques. Pour la recherche des configurations de référence optimalement adaptées au locuteur, plusieurs techniques ont été employées : modifications de la longueur des modèles, déplacement de l'axe de symétrie, transformation géométrique du modèle de Maeda en fonction de la structure du conduit vocal du locuteur (obtenue par radiographies). Ces modifications apportées à la composante statique des modèles ont permis d'obtenir des espaces acoustiques très proches entre les productions des modèles et les réalisations des locuteurs. À l'encontre du modèle DRM - qui dispose de plusieurs stratégies de commande des paramètres - le modèle de Maeda devait être doté d'un moyen de contrôler les mouvements des articulateurs pour passer d'une forme du conduit vocal à une autre. Pour cela nous avons effectué des mesures des trajectoires articulatoires pour un locuteur prononçant des logatomes vocaliques et quelques courtes phrases. L'acquisition de ces données a été réalisée au moyen d'un système électromagnétique (Movetrack) permettant de suivre l'évolution de capteurs disposés sur les articulateurs (lèvres, langue, mâchoire). Les trajectoires naturelles sont modélisées au moyen d'un ensemble de fonctions sigmoïdales utilisées pour piloter dynamiquement le modèle. Cette représentation a le mérite de suivre précisément l'évolution des mouvements des articulateurs du locuteur et d'en quantifier correctement les caractéristiques principales. Par ailleurs cette étude a révélé d'intéressants résultats sur la désynchronisation des différents articulateurs lors de la production des séquences phonémiques. Les deux modèles, adaptés aux caractéristiques des locuteurs, montrent des capacités encourageantes pour la reconnaissance automatique de diphones vocaliques. Il conviendrait toutefois d'étendre ces expériences à l'identification de séquences de sons plus complexes incluant des consonne

There are no comments for this item.

Log in to your account to post a comment.