Pourquoi mes traductions IA sont-elles incohérentes ?

Parce que chaque requête de traduction est sans état. Le modèle n’a aucune mémoire de la façon dont vous avez traduit un terme la semaine dernière, pas de glossaire, pas de voix de marque définie. « Drive » devient donc trois mots différents à travers l’app, et le tutoiement/vouvoiement bascule d’un écran à l’autre. Plus de prompting réduit le phénomène mais ne l’élimine pas : la cohérence est un problème de données (un glossaire et une mémoire de traduction), pas un problème de prompt.

Comment ajouter de la relecture aux traductions LLM sans perdre l’automatisation ?

Noter d’abord, relire sélectivement. La Quality Estimation note chaque traduction IA de 0 à 1 ; les résultats au-dessus du seuil sont enregistrés directement, les résultats douteux ou signalés partent dans un workflow de relecture humaine. Le pipeline reste entièrement automatisé pour la majorité des chaînes, pendant qu’un humain voit exactement celles qui méritent des yeux, en contexte sur l’application, avec un historique accepter/refuser.

Ai-je encore besoin d’un TMS si l’IA traduit ?

Pour un petit projet avec peu de langues et sans utilisateurs externes : honnêtement, souvent non. Le besoin de gestion apparaît avec l’échelle : plusieurs langues, des éditeurs non-développeurs, une terminologie qui doit rester cohérente, des chaînes juridiques ou de conformité, et la question « qui a approuvé cette traduction ? ». À ce stade, le TMS ne concurrence pas l’IA, il la gère : même LLM, plus le contexte du glossaire, la notation de qualité, la relecture et la livraison CDN.

Qu’est-ce que la Quality Estimation pour la traduction automatique ?

La Quality Estimation (QE) est un score automatisé de la confiance que vous pouvez accorder à une traduction automatique ou IA, sans qu’un humain la lise d’abord. Locize note chaque traduction IA de 0 à 1 et signale des problèmes concrets ; vous fixez le seuil (0,7 par défaut) qui décide de ce qui est enregistré directement ou envoyé en relecture humaine. « Faire confiance au modèle » devient une porte mesurable et réglable.

1 juillet 20266 min readGuides

Quand les traductions IA dérapent : ce qui casse vraiment, et le chemin de la graduation

La fin honnête de la plupart des débats « faut-il acheter un outil de traduction ? » en 2026 : passez le JSON dans un LLM en CI et passez à autre chose. C’est rapide, quasi gratuit, et pour une petite app le résultat est réellement utilisable. Nous l’avons dit nous-mêmes, publiquement, sur notre page pourquoi pas simplement l’IA ?

Ce billet parle de la suite, parce qu’il y a une suite. Les pipelines de traduction tout-IA n’échouent pas bruyamment le premier jour. Ils échouent en silence, des mois plus tard, de quelques manières précises et prévisibles. Si vous en exploitez un, voici le guide de terrain des modes de défaillance, et du chemin de graduation qui les corrige sans jeter le pipeline.

Faits en bref

Ce qui casse : dérive terminologique, bascules de registre, cas limites pluriels/ICU, chaînes juridiques livrées sans relecture, et aucune réponse à « qui a approuvé ça ? »
Pourquoi les prompts n’y changent rien : la cohérence et la traçabilité sont des problèmes de données et de workflow. Un appel de modèle sans état n’a ni glossaire, ni mémoire des décisions du mois dernier, ni piste d’audit.
Le chemin de la graduation : gardez votre LLM (votre propre clé), ajoutez le contexte glossaire + guide de style, notez chaque traduction (Quality Estimation), n’envoyez en relecture humaine que les chaînes douteuses, livrez via un CDN.
Quand ne pas graduer : petit projet, peu de langues, pas d’utilisateurs externes. Le tout-IA y est un choix légitime.

Ce qui casse vraiment

La dérive terminologique. Chaque appel de modèle est sans état. Rien ne se souvient que « Drive » est votre nom de produit, que « Abo » était le mot choisi pour subscription en allemand, ou que votre espagnol utilise « tú » et pas « usted ». Sur des centaines de chaînes et des mois de passes incrémentales, le même concept accumule trois ou quatre rendus. Les utilisateurs le remarquent avant vous, parce qu’ils voient les écrans côte à côte.

Les bascules de registre et de voix. Cousin du précédent, mais plus vicieux : le registre change au milieu de l’app. Un écran vouvoie, le suivant tutoie. Dans les langues où cette distinction est grammaticale (allemand, français, japonais, coréen), un registre incohérent se lit comme un bug, pas comme un choix de style.

Les pluriels et cas limites ICU. L’anglais a deux formes de pluriel ; le polonais et l’arabe en ont davantage, avec des règles qu’un modèle applique correctement en isolation et de façon incohérente en masse. Les variables interpolées dans des chaînes ICU MessageFormat se font facilement abîmer dans un passage par lots, et un placeholder cassé n’est pas un problème de style, c’est un bug d’exécution.

Les chaînes qui portent du risque. Mentions légales, formulations médicales, conditions tarifaires, libellés d’accessibilité. Ce sont exactement les chaînes où « le modèle a généralement raison » n’est pas un niveau de qualité acceptable, et exactement celles qu’un pipeline par lots sans relecture livre comme n’importe quelle autre.

Aucune réponse à « qui a approuvé ça ? » La première fois qu’un client, une juriste ou un auditeur demande pourquoi l’app disait ce qu’elle disait en italien, un pipeline tout-IA n’a qu’une réponse : un commit git signé par un bot. Pas de relecteur, pas de trace de décision, pas de score de qualité. Pour les équipes concernées par les obligations de transparence de l’AI Act européen (l’article 50 s’applique à partir du 2 août 2026), la question cesse d’être hypothétique ; notre check de conformité Article 50 couvre ce que le contenu traduit automatiquement déclenche ou non.

L’exemple public de tout ce schéma est arrivé en novembre 2025, quand Mozilla a basculé son contenu de support vers une localisation IA-first et que sa communauté bénévole japonaise de longue date a démissionné en réaction. La critique la plus approuvée de ce très long fil n’était pas « l’IA a traduit ». C’était que rien ne faisait respecter la terminologie et les règles de style, et que les locuteurs natifs trouvaient le résultat pire que rien. C’est le mode de défaillance en une phrase : pas la qualité moyenne de traduction, mais une variance de qualité non gouvernée.

Pourquoi de meilleurs prompts n’y changent rien

Le réflexe est l’ingénierie de prompt : coller le glossaire dans le prompt, ajouter des consignes de style, relancer. Ça aide, et c’est aussi un tapis roulant :

Le contexte ne passe pas à l’échelle. Votre glossaire, vos règles de style et vos décisions passées grossissent ; les fenêtres de contexte et l’attention ne suivent pas « voici 400 décisions terminologiques, applique-les toutes de façon cohérente sur 3 000 chaînes ».
Aucune mémoire entre les passes. Les corrections soignées du mois dernier ne sont pas des données d’entraînement pour le lot de ce mois-ci. Les chaînes corrigées régressent quand une chaîne source change et se fait retraduire.
Toujours aucune porte. Même un prompt parfait produit une sortie qui part en production sans relecture. Le problème n’a jamais été seulement la qualité de traduction ; c’est que rien ne se tient entre le modèle et la production.

La cohérence est un problème de données (glossaire, mémoire de traduction), la qualité un problème de mesure (notation), la traçabilité un problème de workflow (relecture avec historique). Aucun des trois n’est un problème de prompt.

Le chemin de la graduation : garder le pipeline, ajouter la couche

Graduer du tout-IA ne veut pas dire embaucher une agence ni abandonner l’automatisation. Concrètement, avec Locize, cela ressemble à ceci ; chaque brique est incrémentale :

Gardez votre modèle, donnez-lui du contexte. La traduction automatique tourne avec votre propre clé OpenAI, Gemini ou Mistral (ou le service intégré). Votre glossaire et votre guide de style sont injectés dans chaque prompt, si bien que les décisions de terminologie et de registre déjà prises s’appliquent automatiquement à chaque nouvelle chaîne.
Notez tout. La Quality Estimation note chaque traduction IA de 0 à 1 et signale des problèmes concrets. Vous choisissez le seuil (0,7 par défaut).
Ne relisez que ce qui mérite des yeux. Les traductions sûres s’enregistrent directement ; les douteuses partent dans le workflow de relecture, où un relecteur les voit en contexte sur l’application. Les décisions accepter/refuser sont consignées avec l’historique et exportables comme preuve de provenance.
Livrez sans redéploiement. Les traductions approuvées se publient via un CDN mondial. Votre pipeline CI continue de tourner ; l’étape « committer le JSON et redéployer pour une coquille » disparaît.

L’effet net : le même LLM fait le même travail, mais la terminologie cesse de dériver, les chaînes à risque passent devant des yeux humains, et chaque traduction en production sait répondre à « qui a approuvé ça, et avec quelle confiance ? ».

Quand vous ne devriez pas graduer

L’honnêteté vaut dans les deux sens. Si vous menez un projet perso, traduisez vers deux ou trois langues que vous pouvez relire vous-même, et qu’aucun revenu ni aucune conformité ne dépend des textes, un LLM en CI plus du JSON dans git est un montage parfaitement sain, et moins cher que n’importe quel outil. Les signaux de graduation sont concrets : une langue que personne dans l’équipe ne lit, un traducteur ou relecteur qui n’est pas développeur, un terme qui ne doit jamais varier, une chaîne qui intéresse une juriste, ou une plainte qualité d’utilisateur que vous n’avez pas pu retracer. La semaine où l’un d’eux apparaît est la semaine où la couche de gestion commence à se rentabiliser.

Un moyen sans engagement de savoir où vous en êtes : déposez vos fichiers de locales dans le health check i18n gratuit. Il tourne entièrement dans votre navigateur (rien n’est téléversé) et montre les clés manquantes, les valeurs sources dupliquées et les écarts d’interpolation que votre pipeline actuel a déjà produits.

Si plusieurs de ces signaux vous parlent, démarrez gratuitement avec Locize, branchez votre pipeline existant (votre clé, votre modèle) et activez la Quality Estimation pour le prochain lot : vous verrez la distribution des scores de votre production IA actuelle avant de changer quoi que ce soit d’autre. La page pourquoi pas simplement l’IA ? donne la version honnête de tout l’arbitrage.

Fatigué de gérer vos traductions à la main ?

Locize est le backend de gestion de traductions créé par l'équipe i18next : diffusion CDN, traduction IA, édition in-context, sans redéploiement.

Démarrez votre essai gratuit de 14 jours

← Retour au blog