Perché le mie traduzioni IA sono incoerenti?

Perché ogni richiesta di traduzione è senza stato. Il modello non ricorda come hai tradotto un termine la settimana scorsa, non ha un glossario né una voce di brand definita, così "Drive" diventa tre parole diverse nell’app e il registro formale/informale cambia da una schermata all’altra. Più prompting riduce il fenomeno ma non lo elimina: la coerenza è un problema di dati (glossario e translation memory), non di prompt.

Come aggiungo la revisione alle traduzioni LLM senza perdere l’automazione?

Prima il punteggio, poi la revisione selettiva. La Quality Estimation valuta ogni traduzione IA da 0 a 1; i risultati sopra la soglia vengono salvati subito, quelli incerti o con problemi segnalati passano a un workflow di revisione umana. La pipeline resta completamente automatica per la maggior parte delle stringhe, mentre un umano vede esattamente quelle che meritano occhi, nel contesto dell’app, con cronologia accetta/rifiuta.

Mi serve ancora un TMS se a tradurre è l’IA?

Per un progetto piccolo con poche lingue e senza utenti esterni: onestamente, spesso no. Il bisogno di gestione arriva con la scala: più lingue, editor non sviluppatori, terminologia che deve restare coerente, stringhe legali o di compliance, e la domanda "chi ha approvato questa traduzione?". A quel punto il TMS non compete con l’IA, la gestisce: stesso LLM, più contesto di glossario, punteggio di qualità, revisione e delivery via CDN.

Cos’è la Quality Estimation per la traduzione automatica?

La Quality Estimation (QE) è un punteggio automatico di quanta fiducia puoi dare a una traduzione automatica o IA, senza che un umano la legga prima. Locize valuta ogni traduzione IA da 0 a 1 e segnala problemi concreti; imposti tu la soglia (0,7 di default) che decide cosa viene salvato subito e cosa va in revisione umana. "Fidarsi del modello" diventa un cancello misurabile e regolabile.

1 luglio 20266 min readGuides

Quando le traduzioni IA si rompono: cosa fallisce davvero, e il percorso di crescita

Il finale onesto della maggior parte dei dibattiti "compriamo uno strumento di traduzione?" nel 2026 è: passa il JSON in un LLM nella CI e vai avanti. È veloce, quasi gratis, e per una piccola app produce qualcosa di davvero usabile. L’abbiamo detto noi stessi, pubblicamente, nella nostra pagina perché non usare solo l’IA?

Questo post parla di ciò che viene dopo, perché un dopo c’è. Le pipeline di traduzione solo-IA non falliscono rumorosamente il primo giorno. Falliscono in silenzio, mesi dopo, in una manciata di modi specifici e prevedibili. Se ne gestisci una, questa è la guida sul campo ai modi di rottura, e al percorso di crescita che li risolve senza buttare via la pipeline.

Fatti in breve

Cosa si rompe: deriva terminologica, salti di registro, casi limite plurali/ICU, stringhe legali pubblicate senza revisione, e nessuna risposta a "chi l’ha approvata?"
Perché i prompt non bastano: coerenza e tracciabilità sono problemi di dati e workflow. Una chiamata al modello senza stato non ha glossario, non ricorda le decisioni del mese scorso e non ha audit trail.
Il percorso di crescita: tieni il tuo LLM (chiave tua), aggiungi il contesto glossario + styleguide, valuta ogni traduzione (Quality Estimation), manda in revisione umana solo le stringhe incerte, consegna via CDN.
Quando non crescere: progetto piccolo, poche lingue, nessun utente esterno. Lì il solo-IA è una scelta legittima.

Cosa si rompe davvero

Deriva terminologica. Ogni chiamata al modello è senza stato. Nulla ricorda che "Drive" è il nome del tuo prodotto, che "Abo" era la parola scelta per subscription in tedesco, o che il tuo spagnolo usa "tú" e non "usted". Su centinaia di stringhe e mesi di esecuzioni incrementali, lo stesso concetto accumula tre o quattro rese diverse. Gli utenti se ne accorgono prima di te, perché vedono le schermate una accanto all’altra.

Salti di registro e di voce. Parente del precedente, ma più subdolo: il registro cambia a metà app. Una schermata dà del lei, la successiva del tu. Nelle lingue in cui questa distinzione è grammaticale (tedesco, francese, giapponese, coreano), un registro incoerente si legge come un difetto, non come una scelta di stile.

Plurali e casi limite ICU. L’inglese ha due forme plurali; polacco e arabo ne hanno di più, con regole che un modello applica bene in isolamento e in modo incoerente in blocco. Le variabili interpolate nelle stringhe ICU MessageFormat si rovinano facilmente in un giro batch, e un placeholder rotto non è un problema di stile, è un bug a runtime.

Stringhe che portano rischio. Note legali, formulazioni mediche, condizioni di prezzo, etichette di accessibilità. Sono esattamente le stringhe per cui "il modello di solito ha ragione" non è un livello di qualità accettabile, ed esattamente quelle che una pipeline batch senza revisione pubblica come qualsiasi altra stringa.

Nessuna risposta a "chi l’ha approvata?" La prima volta che un cliente, una legale o un auditor chiede perché l’app diceva quel che diceva in italiano, una pipeline solo-IA ha una sola risposta: un commit git firmato da un bot. Nessun revisore, nessuna traccia decisionale, nessun punteggio di qualità. Per i team toccati dagli obblighi di trasparenza dell’AI Act europeo (l’articolo 50 si applica dal 2 agosto 2026), la domanda smette di essere ipotetica; il nostro check di conformità Articolo 50 spiega cosa fa scattare (e cosa no) il contenuto tradotto automaticamente.

L’esempio pubblico dell’intero schema è arrivato a novembre 2025, quando Mozilla ha spostato i contenuti di supporto alla localizzazione IA-first e la storica comunità di volontari giapponese si è dimessa in risposta. La critica più condivisa di quel lunghissimo thread non era "ha tradotto l’IA". Era che nulla faceva rispettare terminologia e linee guida di stile, e i madrelingua trovavano il risultato peggio di niente. È il modo di rottura in una frase: non la qualità media di traduzione, ma la varianza di qualità non governata.

Perché prompt migliori non bastano

La correzione istintiva è il prompt engineering: incolla il glossario nel prompt, aggiungi istruzioni di stile, rilancia. Aiuta, ed è anche un tapis roulant:

Il contesto non scala. Glossario, regole di stile e decisioni passate crescono; le finestre di contesto e l’attenzione non stanno dietro a "ecco 400 decisioni terminologiche, applicale tutte in modo coerente su 3.000 stringhe".
Non c’è memoria tra le esecuzioni. Le correzioni accurate del mese scorso non sono dati di addestramento per il batch di questo mese. Le stringhe corrette regrediscono quando una stringa sorgente cambia e viene ritradotta.
Manca comunque un cancello. Anche un prompt perfetto produce output che va in produzione senza revisione. Il problema non è mai stato solo la qualità di traduzione; è che nulla sta tra il modello e la produzione.

La coerenza è un problema di dati (glossario, translation memory), la qualità un problema di misura (punteggio), la tracciabilità un problema di workflow (revisione con cronologia). Nessuno dei tre è un problema di prompt.

Il percorso di crescita: tieni la pipeline, aggiungi il livello

Crescere oltre il solo-IA non significa assumere un’agenzia né abbandonare l’automazione. In concreto, con Locize funziona così; ogni pezzo è incrementale:

Tieni il tuo modello, dagli contesto. La traduzione automatica gira con la tua chiave OpenAI, Gemini o Mistral (o col servizio integrato). Il tuo glossario e la tua styleguide vengono iniettati in ogni prompt, così le decisioni di terminologia e registro che hai già preso valgono automaticamente per ogni stringa futura.
Valuta tutto. La Quality Estimation valuta ogni traduzione IA da 0 a 1 e segnala problemi concreti. La soglia la scegli tu (0,7 di default).
Rivedi solo ciò che merita occhi. Le traduzioni affidabili si salvano subito; quelle incerte vanno nel workflow di revisione, dove un revisore le vede nel contesto dell’app. Le decisioni accetta/rifiuta sono registrate nella cronologia ed esportabili come evidenza di provenance.
Consegna senza redeploy. Le traduzioni approvate si pubblicano su una CDN globale. La tua pipeline CI continua a girare; il passaggio "committa il JSON e rideploya per un refuso" sparisce.

L’effetto netto: lo stesso LLM fa lo stesso lavoro, ma la terminologia smette di derivare, le stringhe a rischio passano davanti a occhi umani, e ogni traduzione in produzione sa rispondere a "chi l’ha approvata, e con quanta confidenza?".

Quando non dovresti crescere

L’onestà vale in entrambe le direzioni. Se porti avanti un progetto personale, traduci in due o tre lingue che puoi ricontrollare da solo, e né fatturato né compliance dipendono dai testi, un LLM in CI più JSON in git è un assetto perfettamente sano, e più economico di qualsiasi strumento. I segnali di crescita sono concreti: una lingua che nessuno nel team legge, un traduttore o revisore che non è sviluppatore, un termine che non deve mai variare, una stringa che interessa a una legale, o un reclamo di qualità di un utente che non sei riuscito a rintracciare. La settimana in cui ne compare uno è la settimana in cui il livello di gestione inizia a ripagarsi.

Un modo senza impegno per capire dove sei: trascina i tuoi file di localizzazione nel health check i18n gratuito. Gira interamente nel browser (nulla viene caricato) e mostra le chiavi mancanti, i valori sorgente duplicati e le discrepanze di interpolazione che la tua pipeline attuale ha già prodotto.

Se più di uno di questi segnali ti suona familiare, inizia gratis con Locize, collega la tua pipeline esistente (la tua chiave, il tuo modello) e attiva la Quality Estimation per il prossimo batch: vedrai la distribuzione dei punteggi del tuo output IA attuale prima di cambiare qualsiasi altra cosa. La pagina perché non usare solo l’IA? contiene la versione onesta dell’intero compromesso.

Stanco di gestire le traduzioni a mano?

Locize è il backend di gestione delle traduzioni creato dal team di i18next: distribuzione via CDN, traduzione con AI, editing in-context, senza nuovi deploy.

Inizia la prova gratuita di 14 giorni

← Torna al blog