Babel 2.0
eBook - ePub

Babel 2.0

Où va la traduction automatique ?

  1. 224 pages
  2. French
  3. ePUB (adapté aux mobiles)
  4. Disponible sur iOS et Android
eBook - ePub

Babel 2.0

Où va la traduction automatique ?

À propos de ce livre

La question de la traduction automatique s'est posée dès la naissance de l'informatique. Elle semblait alors accessible, mais quiconque, aujourd'hui, utilise les traducteurs automatiques disponibles sur Internet sait que, malgré les remarquables progrès effectués, on est encore loin d'une traduction toujours fidèle. La complexité du langage naturel et ses ambiguïtés sont bien faites pour dérouter les algorithmes pleinement rationnels de nos ordinateurs. Les « réseaux de neurones » qui pratiquent l'« apprentissage profond » sont la dernière en date des multiples stratégies déployées pour parler avec la machine… et s'en faire comprendre. Thierry Poibeau est directeur de recherche au CNRS. Il est spécialiste du traitement automatique des langues, un domaine de recherche à la frontière de la linguistique et de l'informatique. 

Foire aux questions

Oui, vous pouvez résilier à tout moment à partir de l'onglet Abonnement dans les paramètres de votre compte sur le site Web de Perlego. Votre abonnement restera actif jusqu'à la fin de votre période de facturation actuelle. Découvrez comment résilier votre abonnement.
Pour le moment, tous nos livres en format ePub adaptés aux mobiles peuvent être téléchargés via l'application. La plupart de nos PDF sont également disponibles en téléchargement et les autres seront téléchargeables très prochainement. Découvrez-en plus ici.
Perlego propose deux forfaits: Essentiel et Intégral
  • Essentiel est idéal pour les apprenants et professionnels qui aiment explorer un large éventail de sujets. Accédez à la Bibliothèque Essentielle avec plus de 800 000 titres fiables et best-sellers en business, développement personnel et sciences humaines. Comprend un temps de lecture illimité et une voix standard pour la fonction Écouter.
  • Intégral: Parfait pour les apprenants avancés et les chercheurs qui ont besoin d’un accès complet et sans restriction. Débloquez plus de 1,4 million de livres dans des centaines de sujets, y compris des titres académiques et spécialisés. Le forfait Intégral inclut également des fonctionnalités avancées comme la fonctionnalité Écouter Premium et Research Assistant.
Les deux forfaits sont disponibles avec des cycles de facturation mensuelle, de 4 mois ou annuelle.
Nous sommes un service d'abonnement à des ouvrages universitaires en ligne, où vous pouvez accéder à toute une bibliothèque pour un prix inférieur à celui d'un seul livre par mois. Avec plus d'un million de livres sur plus de 1 000 sujets, nous avons ce qu'il vous faut ! Découvrez-en plus ici.
Recherchez le symbole Écouter sur votre prochain livre pour voir si vous pouvez l'écouter. L'outil Écouter lit le texte à haute voix pour vous, en surlignant le passage qui est en cours de lecture. Vous pouvez le mettre sur pause, l'accélérer ou le ralentir. Découvrez-en plus ici.
Oui ! Vous pouvez utiliser l’application Perlego sur appareils iOS et Android pour lire à tout moment, n’importe où — même hors ligne. Parfait pour les trajets ou quand vous êtes en déplacement.
Veuillez noter que nous ne pouvons pas prendre en charge les appareils fonctionnant sous iOS 13 ou Android 7 ou versions antérieures. En savoir plus sur l’utilisation de l’application.
Oui, vous pouvez accéder à Babel 2.0 par Thierry Poibeau en format PDF et/ou ePUB ainsi qu'à d'autres livres populaires dans Informatique et Intelligence artificielle (IA) et sémantique. Nous disposons de plus d'un million d'ouvrages à découvrir dans notre catalogue.

Informations

CHAPITRE 1

Préliminaires :
autour de la traduction et du traitement automatique des langues


Avant d’aborder la question de la traduction automatique, il est primordial de s’interroger sur la notion de traduction même. Comment procède-t-on pour traduire ? Comment définir l’objectif à atteindre (à savoir une bonne traduction) ? Nous verrons que ces questions sont difficiles et très débattues. Il faut enfin comprendre pourquoi la compréhension d’un énoncé, phénomène simple et direct pour un être humain, pose en fait d’infinis problèmes aux ordinateurs, malgré leur puissance de calcul.

Qu’est-ce que « traduire » ?

La réponse à cette question peut sembler évidente : il s’agit de transposer dans une langue cible un texte donné dans une langue source. Cependant, on voit rapidement que cette définition, si simple soit elle, renvoie en fait à un problème d’une infinie complexité. Qu’est-ce que « transposer un texte » ? Comment s’opère le passage de la langue source à la langue cible ? Comment trouver des équivalences d’une langue à l’autre ? Ces équivalences sont-elles à trouver au niveau des mots, des expressions ou des phrases ? Et même : comment déterminer quel est le sens d’un texte ? d’un énoncé ? Tout lecteur a-t-il la même compréhension d’un texte donné ? Et si la réponse à cette dernière question est négative, quelles en sont les conséquences pour le processus de traduction ?
On le voit, la traduction ouvre une multitude de questions de nature linguistique, psychologique, voire philosophique. Pour mieux cerner le problème, il peut être intéressant de faire un pas de côté et de s’interroger plutôt sur les caractéristiques d’une « bonne » traduction.

Qu’est-ce qu’une bonne traduction ?

Disons-le tout net : une des difficultés de la traduction vient justement du fait qu’on ne sait pas définir formellement ce qu’est une « bonne » traduction. On n’a donc guère progressé en posant la question de cette manière, mais certains critères peuvent toutefois être mis en avant.
La traduction doit rendre compte le plus fidèlement possible du texte d’origine : elle doit en respecter les grandes caractéristiques, le ton et le style, mais elle doit aussi respecter le détail des idées et de l’argumentation. Le texte obtenu doit être non seulement parfaitement intelligible dans la langue cible, mais il doit être linguistiquement correct, ce qui implique un travail de reformulation subtil. Idéalement, le lecteur ne devrait pas se rendre compte qu’il lit une traduction s’il ne connaît pas l’origine du texte, ce qui implique aussi de respecter les idiomatismes de la langue cible.
Le traducteur doit comprendre en profondeur le texte source pour le rendre dans la langue cible mais il doit aussi avoir une parfaite connaissance de la langue cible. Généralement, les traducteurs professionnels ne traduisent que vers leur langue maternelle pour avoir une parfaite maîtrise des formules choisies pour transposer les idées exprimées dans le texte source.
Ces caractéristiques d’une « bonne » traduction ne doivent pas masquer leur grande subjectivité. Ce qui est une bonne traduction pour un lecteur pourra être considéré comme étant d’un niveau médiocre par un autre : ce genre de situation peut survenir entre un traducteur professionnel et son client si ceux-ci n’ont pas l’habitude de travailler ensemble ou si le traducteur ignore l’usage qui sera fait de son travail.
Les attentes vis-à-vis d’une traduction peuvent en effet changer du tout au tout suivant le client, l’époque, la nature du texte, le contexte et l’usage. On ne traduit pas un texte technique comme un texte littéraire. Un effort de transposition peut devoir être fait si le texte concerne une réalité très éloignée du lectorat potentiel du texte cible (par exemple si l’on doit rendre en français un texte japonais du XIIe siècle) : le traducteur doit alors choisir entre fidélité au texte original et paraphrases explicatives permettant une meilleure compréhension du (con)texte (faits historiques, éléments culturels peu connus, etc.). Le ton et le style sont aussi des réalités éminemment subjectives et très dépendantes de la langue considérée. On le voit, les facteurs de subjectivité ne manquent pas en traduction.
Certains écueils en revanche sont bien connus et largement évoqués par les traducteurs eux-mêmes. Il faut éviter le mot à mot, qui donne un résultat peu compréhensible et non idiomatique. Il faut éviter les faux amis (le verbe anglais to accommodate doit se traduire par un verbe signifiant « loger » en français, mais en aucun cas par « accommoder », etc.) ; il faut aussi éviter les calques syntaxiques qui aboutissent à des contresens. À l’inverse, il est conseillé aux traducteurs de prendre connaissance de la totalité d’un texte pour, justement, éviter les contresens locaux. La connaissance du client, du contexte et de l’usage qui sera fait du texte traduit aide bien évidemment à ajuster le travail de traduction à l’objectif visé.
La section précédente (« Qu’est-ce que “traduire” ? ») l’a implicitement évoqué : la traduction est un processus complexe qui met en jeu des facultés cognitives et langagières avancées. Le traducteur doit développer des mécanismes de compréhension et de reformulation remarquables, et ce en prenant en compte deux langues différentes, qui n’ont pas les mêmes contraintes.
Ce type de faculté est largement étranger au monde des machines et des ordinateurs. Les systèmes artificiels développés depuis les débuts de l’informatique sont à peine balbutiants de ce point de vue, et bien évidemment très loin des capacités des humains en matière de compréhension et de reformulation. Reformuler une phrase est en effet un problème difficile qui implique d’une part des connaissances approfondies sur la langue elle-même, et d’autre part des facultés qui ont trait à la recherche d’analogies et d’équivalences entre concepts, ce qui dépasse le simple niveau linguistique.
Les concepteurs de systèmes de traduction automatique ont conscience de ces limites. Peu de chercheurs ont abordé la question de la traduction de textes littéraires : il y a un assez grand consensus sur le fait que la traduction automatique est une tâche difficile, qui doit être appliquée à des textes relativement communs (par exemple à des textes d’actualités) et non à des œuvres littéraires. Les domaines techniques posent aussi des problèmes propres dans la mesure où ils emploient un vocabulaire spécialisé, donc très différent du vocabulaire commun.
En conséquence, la qualité des traductions réalisées automatiquement est une question largement débattue. Toutes les équipes de recherche visent à se rapprocher de la qualité des traductions humaines. En même temps, tout le monde sait que cet objectif est très ambitieux quand on a affaire à des textes « tout venant », c’est-à-dire pouvant potentiellement aborder n’importe quel domaine. Cet objectif est aussi difficile à définir, dans la mesure où la qualité d’une traduction dépend étroitement de la nature et de la difficulté du texte à traduire, et surtout de la langue source et de la langue cible.
Pendant longtemps, les outils de traduction fonctionnaient par assemblage de fragments de textes dans la langue cible, trouvés dans des corpus bilingues de référence (voir le chapitre 8). L’approche était relativement locale, ce qui posait d’évidents problèmes de pertinence et cohérence. Le niveau textuel (la tonalité et le style du texte à traduire) n’était quasiment jamais pris en compte. Plus récemment, en particulier depuis 2016, ce sont les approches par « apprentissage profond » qui ont pris le relais, dans l’industrie mais aussi dans le monde de la recherche. Ces méthodes récentes abordent la question de la traduction directement au niveau de la phrase vue comme une entité globale, ce qui évite certains écueils des méthodes statistiques précédentes. Ce n’est pas leur seul avantage, mais cette caractéristique explique quand même en grande partie leur succès.
Il faut enfin prendre conscience des très grandes difficultés que pose l’analyse des langues par ordinateur. Le nombre de mots à considérer, leurs variations, le nombre de sens différents pour chaque mot, le fait que certains mots n’ont pas de sens en eux-mêmes mais font partie de mots composés (« pomme de terre ») ou d’expressions idiomatiques (« jouer cartes sur table », « pleuvoir à verse »), tout cela rend le problème infiniment complexe. Il existe enfin de nombreuses langues avec une morphologie complexe, des cas (nominatif, génitif, etc.) et un ordre des mots relativement libre. Pour ces langues, si on ne dispose pas d’analyseurs puissants pouvant identifier et analyser par exemple la fonction syntaxique des mots dans la langue source, les performances seront obligatoirement « moyennes » car cette information est nécessaire pour traduire correctement. La section suivante vise à illustrer certaines de ces difficultés.

Pourquoi l’analyse de la langue par ordinateur est-elle difficile ?

En dehors du manque d’information sur l’utilisateur, le contexte ou le style de texte considéré (ce qui a pour conséquence que la traduction automatique fonctionne « en aveugle » en quelque sorte, par rapport à un traducteur professionnel), une autre difficulté tient à la tâche elle-même, qui implique l’analyse des langues, improprement appelées « naturelles » par opposition aux « langages formels » (comme les langages informatiques).
Les linguistes et les informaticiens s’intéressent depuis des années au « traitement automatique de la langue » (TAL) ou à la « linguistique computationnelle » pour reprendre le terme copié de l’anglais (computational linguistics). Le TAL pose de très grandes difficultés parce que l’ordinateur n’a a priori aucune connaissance sur la langue. Il faut donc lui indiquer ce qu’est un mot, une phrase, etc. Jusque-là, les choses peuvent sembler relativement simples, même si ce n’est pas tout à fait vrai (ainsi, on considère « aujourd’hui » comme un mot bien qu’il comprenne une apostrophe ; et il faut connaître le contexte pour pouvoir déterminer si « rendez-vous » forme un ou deux mots). Les langues naturelles posent en fait une redoutable difficulté : chaque mot, chaque expression et chaque phrase peut être ambiguë.
Prenons un exemple : « L’avocat a livré une plaidoirie au vitriol. » Chaque mot introduit de nombreuses difficultés pour un ordinateur. Pour un humain, il est par exemple évident que « avocat » désigne ici un juriste, « livré » correspond au verbe « livrer » et que « au vitriol » est une expression figée. Il n’en va pas de même pour un ordinateur : « avocat » peut désigner un fruit ; « livré » peut facilement être identifié comme un verbe, mais le sens est ici largement métaphorique : il n’y a pas de livraison à proprement parler dans la phrase. Les compléments prépositionnels posent eux aussi des problèmes importants : comment savoir que « au vitriol » est rattaché à « plaidoirie » plutôt qu’au verbe « livré » ? Si on avait eu affaire à la phrase « l’avocat a livré une plaidoirie au palais de justice », le complément « au palais de justice » aurait dû être rattaché au verbe et non au nom « plaidoirie », alors que la structure des deux phrases semble tout à fait comparable de prime abord.
On pourrait objecter à cela que « au vitriol » est une expression figée qui doit être enregistrée comme un tout (c’est-à-dire comme une entrée à part entière) dans le dictionnaire. Cela est probablement vrai mais on ne fait ainsi que repousser le problème dans la mesure où cette stratégie revient à augmenter le nombre de mots et d’expressions, ce qui a pour conséquence d’introduire de nouvelles ambiguïtés, et finalement de rendre le problème sans fin.
Un dictionnaire du français courant contient en général entre 50 000 et 100 000 mots (hors noms propres). Quand on considère toutes les formes que l’on trouve effectivement dans les textes (un verbe comme « livrer » correspond en fait à plusieurs dizaines de formes conjuguées : « livrions », « livraient », « livrera », etc.), il est admis qu’il faut multiplier ce chiffre par huit environ en français. À cela, il faut ajouter les noms propres (on trouve des dictionnaires de plusieurs millions de noms propres, la plupart étant ambigus avec des noms communs, comme « Pierre » qui peut être confondu avec une « pierre », même si l’usage des majuscules limite le problème en français) et les dictionnaires de mots composés (qui peuvent aussi inclure plusieurs dizaines de milliers d’items). Enfin, chaque domaine technique est lui-même susceptible d’inclure de nombreux termes spécifiques, souvent ambigus du point de vue formel avec d’autres mots de la langue.
Les problèmes d’analyse syntaxique se greffent là-dessus (dans notre exemple ci-dessus, faut-il rattacher « au vitriol » à « plaidoirie » ou au verbe « a livré » ?) et l’on voit qu’on a très rapidement affaire à un problème d’explosion combinatoire. La plupart des problèmes peuvent être résolus facilement, de manière locale (par exemple avec des heuristiques du type « comme plaidoirie apparaît dans le contexte du mot avocat, ce dernier désigne probablement l’homme de loi et non le fruit ») mais d’autres problèmes nécessitent des connaissances plus complexes, difficiles à concevoir de manière exhaustive quand on a affaire à des millions d’items.
Ce qui peut sembler surprenant, c’est que tout cela ne pose aucun problème de compréhension à un humain, qui ne voit même pas qu’il y a ambiguïté (au sens où il faut choisir la bonne étiquette, le bon sens, le bon rattachement de chaque mot pour comprendre la phrase). De fait, cette dimension de la traduction automatique, et plus généralement cette difficulté dans l’analyse des langues humaines ont longtemps échappé aux concepteurs de systèmes automatiques tant la compréhension est un phénomène naturel, direct et inconscient pour un humain. Il est d’ailleurs très improbable que le cerveau analyse toutes les possibilités pour chaque mot afin d’obtenir une représentation sémantique pour une phrase donnée : grâce au contexte, le cerveau accède probablement directement à la bonne interprétation, sans même considérer les analyses alternatives. À ce sujet, il a parfois été proposé un parallèle avec le cube d...

Table des matières

  1. Couverture
  2. Titre
  3. Copyright
  4. Introduction
  5. CHAPITRE 1 - Préliminaires : autour de la traduction et du traitement automatique des langues
  6. CHAPITRE 2 - L'évolution de la traduction automatique
  7. CHAPITRE 3 - Avant la naissance des ordinateurs…
  8. CHAPITRE 4 - Les débuts : les systèmes à base de règles
  9. CHAPITRE 5 - Le rapport ALPAC (1966)
  10. CHAPITRE 6 - Corpus parallèles et alignement de phrases
  11. CHAPITRE 7 - La traduction automatique à base d'exemples
  12. CHAPITRE 8 - La traduction automatique statistique et l'alignement de mots
  13. CHAPITRE 9 - La traduction automatique par apprentissage profond
  14. CHAPITRE 10 - L'évaluation des systèmes de traduction automatique
  15. CHAPITRE 11 - Le marché de la traduction automatique
  16. L'avenir de la traduction automatique
  17. Références
  18. Table