Ressource pédagogique : 06b - Attribution d’Auteur : approche multilingue fondée sur les répétitions maximales (taln2015)
Présentation de: 06b - Attribution d’Auteur : approche multilingue fondée sur les répétitions maximales (taln2015)
Informations pratiques sur cette ressource
Droits réservés à l'éditeur et aux auteurs.
Description de la ressource pédagogique
Description (résumé)
Sessions orales TALN 2015 – Mardi 23 juin 2015 Session Classification et Alignement Attribution d’Auteur : approche multilingue fondée sur les répétitions maximales Romain Brixtel, Charlotte Lecluze et Gaël Lejeune Résumé : Cet article s’attaque à la tâche d’Attribution d’Auteur en contexte multilingue. Nous proposons une alternative aux méthodes supervisées fondées sur les n-grammes de caractères de longueurs variables : les répétitions maximales. Pour un texte donné, la liste de ses n-grammes de caractères contient des informations redondantes. A contrario, les répétitions maximales représentent l’ensemble des répétitions de ce texte de manière condensée. Nos expériences montrent que la redondance des n-grammes contribue à l’efficacité des techniques d’Attribution d’Auteur exploitant des sous-chaînes de caractères. Ce constat posé, nous proposons une fonction de pondération sur les traits donnés en entrée aux classifieurs, en introduisant les répétitions maximales du n-ème ordre (c-à-d des répétitions maximales détectées dans un ensemble de répétitions maximales). Les résultats expérimentaux montrent de meilleures performances avec des répétitions maximales, avec moins de données que pour les approches fondées sur les n-grammes.Cet article s’attaque à la tâche d’Attribution d’Auteur en contexte multilingue. Nous proposons une alternative aux méthodes supervisées fondées sur les n-grammes de caractères de longueurs variables : les répétitions maximales.
"Domaine(s)" et indice(s) Dewey
- Traduction automatique (418.02)
- Informatique appliquée à la linguistique (410.285)
Thème(s)
Document(s) annexe(s) - 06b - Attribution d’Auteur : approche multilingue fondée sur les répétitions maximales (taln2015)
- Cette ressource fait partie de
EN SAVOIR PLUS
-
Identifiant de la fiche
18677 -
Identifiant
oai:canal-u.fr:18677 -
Schéma de la métadonnée
- LOMv1.0
- LOMFRv1.0
- Voir la fiche XML
-
Entrepôt d'origine