Un modèle parallèle pour la reconnaissance automatique du locuteur / Laurent Besacier ; Alain Marchal, Henri Méloni

Auteur principal : Besacier, Laurent, AuteurAuteur secondaire : Marchal, Alain, Directeur de thèse • Méloni, Henri, Directeur de thèseAuteur secondaire collectivité : Université d'Avignon, Etablissement de soutenanceType de document : ThèseLangue : français.Pays: France.Éditeur : [S.l.] : [s.n.], 1998Description : 1 vol. (147 p.) : tabl., fig. ; 30 cmBibliographie : Bibliogr. p. 138-147. Index.Sujet MSC : 93C85, Model systems in control theory, Automated systems (robots, etc.)
93C83, Model systems in control theory, Control/observation systems involving computers
68T10, Computer science - Artificial intelligence, Pattern recognition, speech recognition
93C80, Model systems in control theory, Frequency-response methods in control theory
93B25, Systems theory; control, Algebraic methods
97-02, Research exposition (monographs, survey articles) pertaining to mathematics education
Note de thèse: Thèse de doctorat, informatique, 1998, AvignonEn-ligne : Cliquez ici pour consulter en ligne Item type: Thèse
Tags from this library: No tags from this library for this title. Log in to add tags.
Holdings
Current library Call number Status Date due Barcode
CMI
Salle S
Thèses BES (Browse shelf(Opens below)) Available 00202-01

Bibliogr. p. 138-147. Index

Thèse de doctorat informatique 1998 Avignon

Ce travail concerne l'introduction d'un modèle parallèle pour l'identification automatique du locuteur. Le choix d'une telle approche réside dans l'hypothèse que des reconnaisseurs travaillant indépendamment sur différents sous-ensembles de paramètres acoustiques sont plus robustes qu'un seul reconnaisseur utilisant l'espace acoustique dans sa globalité. Cette robustesse est cependant conditionnée par de nombreux facteurs qui sont étudiés, ici, dans le cas particulier d'un système multibandes. Le choix de l'architecture multibandes est tout d'abord discuté et nous mettons en évidence les bandes de fréquence les plus utiles pour l'identification automatique du locuteur. Cependant, il ne ressort pas de cette étude préliminaire une configuration optimale (taille et nombre de sous-bandes, recouvrement entre les bandes) permettant d'aborder le problème de la fusion des reconnaisseurs avec une architecture fixée une fois pour toutes. Le choix d'une stratégie pour combiner les scores ou les décisions issus de chaque sous-bande fréquentielle est donc abordé sachant que architecture et fusion sont intimement liées. Nous traitons le problème de la recombinaison dans le cadre théorique de la fusion de multiples reconnaisseurs. Les trois aspects, à notre avis essentiels, du processus de fusion sont abordés : homogénéisation des scores à recombiner ; pondération et critères d'apprentissage des poids ; choix de l'opérateur de fusion numérique. Les principaux opérateurs de fusion numérique sont réunis sous un formalisme commun et une étude théorique sur la sensibilité aux erreurs de ces opérateurs est proposée. Enfin, nous abordons le problème de l'accumulation des scores de recombinaison obtenus sur plusieurs segments temporels, permettant de prendre une décision pour la totalité d'un signal de test. Ce problème dépasse le cadre de notre architecture multibandes car il se pose également pour tout système de reconnaissance ou une décision finale doit être prise avec une série de scores de vraisemblance obtenus en ligne. Cette étape d'accumulation peut être traitée de façon similaire à un problème de fusion multi-reconnaisseurs. Ainsi, nous avons envisagé de remplacer la double phase recombinaison / accumulation par un module unique d'accumulation de scores préalablement normalisés, indépendamment du segment temporel ou de la sous-bande fréquentielle dont ils proviennent. A cet effet, une approche conjointe d'élagage temporel et fréquentiel est formalisée puis experimentée. Les résultats expérimentaux montrent que certains opérateurs de fusion permettent d'obtenir des performances équivalentes à une approche conventionnelle sur des signaux de parole propres. Dans le cas de la parole partiellement bruitée, notre approche multibandes se révèle beaucoup plus robuste, quels que soient les opérateurs de fusion utilisés. La procédure d'élagage temps-fréquence conduit quant à elle à une réduction du taux d'erreur significative sur TIMIT et NTIMIT (jusqu'à 41% de réduction du taux d'erreur d'identification sur TIMIT) pour des durées courtes d'apprentissage et de test

There are no comments on this title.

to post a comment.