Normal view MARC view ISBD view

Outils d'exploration de corpus et désambiguïsation lexicale automatique / Laurent Audibert ; sous la direction de Jean Véronis

Auteur principal : Audibert, Laurent, 1974-, AuteurAuteur secondaire : Véronis, Jean, 1955-, Directeur de thèseAuteur secondaire collectivité : Université de Provence, Etablissement de soutenanceType de document : ThèseLangue : français.Pays : France.Éditeur : [S.l.] : [s.n.], 2003Description : 1 vol. (360 p.) : tabl. fig. ; 30 cmBibliographie : Bibliogr. p. 347-360.Sujet MSC : 68T50, Computer science -- Artificial intelligence, Natural language processing
68T05, Computer science -- Artificial intelligence, Learning and adaptive systems
68T27, Computer science -- Artificial intelligence, Logic in artificial intelligence
97A70, Mathematics education - General, mathematics and education, Theses and postdoctoral theses
Note de thèse: Thèse de doctorat, informatique, 2003, Aix-Marseille 1En-ligne : Cliquez ici pour consulter en ligne
Tags from this library: No tags from this library for this title. Log in to add tags.
Current location Call number Status Date due Barcode
CMI
Salle S
Thèses AUD (Browse shelf) Available 02486-01

Bibliogr. p. 347-360

Thèse de doctorat informatique 2003 Aix-Marseille 1

Ce travail de thèse adresse le problème de la désambiguïsation lexicale automatique à l'aide de méthodes d'apprentissage supervisé. Dans une première partie, nous proposons un ensemble de puissants outils de manipulation de corpus linguistiques étiquetés. Pour réaliser ces outils, nous avons développé une bibliothèque C++ qui implémente un langage élaboré et expressif d'interrogation de corpus, basé sur des méta-expressions régulières. Dans une seconde partie, nous comparons divers algorithmes d'apprentissage supervisé, que nous utilisons ensuite pour mener à bien une étude systématique et approfondie de différents critères de désambiguïsation, basés sur la cooccurrence de mots et plus généralement de n-grammes. Nos résultats vont parfois à l'encontre de certaines pratiques dans le domaine. Par exemple, nous montrons que la suppression des mots grammaticaux dégrade les performances et que les bigrammes permettent d'obtenir de meilleurs résultats que les unigrammes.

Consultable en ligne au format html. Également disponible au format pdf : 1 fichier (6,1 Mo)

There are no comments for this item.

Log in to your account to post a comment.