Rapport Année : 2011

Modèles de segmentation et ré-ordonnancement en traduction statistique

Résumé

In translation, the positions of corresponding language units (words or groups of words) are not necessarily in the same order - for example, there is often a permutation between noun and adjective in the transition from French ("la maison bleue") to English ("the blue house"). This last aspect of translation is called reordering. The purpose of the segmentation and permutation stage is to divide the source sentence f into segments (groups of contiguous words) f1 f2... fK representing units of meaning, and to arrange them in an order f'1... f'K order that is more natural for the target language. The aim of this internship was to find, despite the imprecision of automatic word alignments, permutations that put the source words back into the "right" order, that of the words in the corresponding target sentence. In other words, the aim was to generate good training data from the point of view of re-ordering.
Lors d'une traduction, les positions des unités de langue (mots ou groupes de mots) qui se correspondent ne se retrouvent pas nécessairement dans le même ordre -par exemple, il y a souvent permutation entre nom et adjectif au passage du français ("la maison bleue") à l'anglais ("the blue house"). Ce dernier aspect de la traduction est nommé ré-ordonnancement. L'étape de segmentation et permutation vise à découper la phrase source f en segments (groupes de mots contigus) f1 f2... fK représentant des unités de sens, et à les disposer dans un ordre f'1... f'K plus naturel pour la langue cible. L'objectif de ce stage a été de trouver, malgré l'imprécision des alignements automatiques de mots, les permutations qui remettent les mots source dans le "bon" ordre, celui des mots de la phrase cible correspondante. En d'autres termes, il s'agissait de générer de bonnes données d'apprentissage du point de vue du ré-ordonnancement.
Fichier principal
Vignette du fichier
rapport_blusseau_bibliothèque.pdf (3) Télécharger le fichier
Origine Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-04948758 , version 1 (14-02-2025)

Identifiants

  • HAL Id : hal-04948758 , version 1

Citer

Samy Blusseau, Alexandre Allauzen, François Yvon. Modèles de segmentation et ré-ordonnancement en traduction statistique. LIMSI-CNRS. 2011. ⟨hal-04948758⟩
0 Consultations
0 Téléchargements

Partager

More