Warum sind meine KI-Übersetzungen inkonsistent?

Weil jede Übersetzungsanfrage zustandslos ist. Das Modell hat kein Gedächtnis dafür, wie Sie einen Begriff letzte Woche übersetzt haben, kein Glossar und keine definierte Markenstimme. So wird "Drive" quer durch die App zu drei verschiedenen Wörtern, und die Anrede springt zwischen Du und Sie. Mehr Prompting reduziert das, beseitigt es aber nicht: Konsistenz ist ein Datenproblem (Glossar und Translation Memory), kein Prompting-Problem.

Wie ergänze ich Review bei LLM-Übersetzungen, ohne die Automatisierung zu verlieren?

Erst bewerten, dann selektiv reviewen. Quality Estimation bewertet jede KI-Übersetzung von 0 bis 1; Ergebnisse über dem Schwellwert werden direkt gespeichert, unsichere oder mit Issues markierte Ergebnisse gehen in einen menschlichen Review-Workflow. Die Pipeline bleibt für die Mehrheit der Strings vollautomatisch, während ein Mensch genau die Strings sieht, die Augen brauchen, im Kontext der laufenden App, mit Accept/Decline-Historie.

Brauche ich noch ein TMS, wenn die KI übersetzt?

Für ein kleines Projekt mit wenigen Sprachen und ohne externe Nutzer: ehrlich gesagt oft nein. Der Verwaltungsbedarf kommt mit der Skalierung: mehrere Sprachen, Bearbeiter, die keine Entwickler sind, Terminologie, die konsistent bleiben muss, rechtliche oder Compliance-Strings, und die Frage "Wer hat diese Übersetzung freigegeben?". Ab da konkurriert das TMS nicht mit der KI, es verwaltet sie: dasselbe LLM, plus Glossar-Kontext, Qualitätsbewertung, Review und CDN-Auslieferung.

Was ist Quality Estimation bei maschineller Übersetzung?

Quality Estimation (QE) ist eine automatisierte Einschätzung, wie sehr Sie einer maschinellen oder KI-Übersetzung vertrauen können, ohne dass ein Mensch sie vorher liest. Locize bewertet jede KI-Übersetzung von 0 bis 1 und markiert konkrete Probleme; Sie setzen den Schwellwert (standardmäßig 0,7), der entscheidet, was direkt gespeichert und was in den menschlichen Review geroutet wird. Aus "dem Modell vertrauen" wird ein messbares, einstellbares Gate.

1. Juli 20265 min readGuides

Wenn KI-Übersetzungen kippen: Was wirklich schiefgeht, und der Weg zum Upgrade

Das ehrliche Ende der meisten "Sollen wir ein Übersetzungstool kaufen?"-Debatten lautet 2026: Jag das JSON in der CI durch ein LLM und mach weiter. Es ist schnell, fast kostenlos, und für eine kleine App kommt etwas wirklich Brauchbares heraus. Das haben wir selbst gesagt, öffentlich, auf unserer Seite Warum nicht einfach KI?

In diesem Beitrag geht es um das, was danach kommt, denn es kommt etwas danach. KI-only-Übersetzungspipelines scheitern nicht laut am ersten Tag. Sie scheitern leise, Monate später, auf eine Handvoll spezifischer und vorhersehbarer Arten. Wenn Sie eine betreiben, ist das hier der Feldführer zu den Fehlermodi, und zum Upgrade-Pfad, der sie behebt, ohne die Pipeline wegzuwerfen.

Fakten auf einen Blick

Was kaputtgeht: Terminologie-Drift, springende Anrede, Plural-/ICU-Grenzfälle, ungeprüft ausgelieferte Rechtstexte, und keine Antwort auf "Wer hat das freigegeben?"
Warum Prompts es nicht beheben: Konsistenz und Nachvollziehbarkeit sind Daten- und Workflow-Probleme. Ein zustandsloser Modellaufruf hat kein Glossar, kein Gedächtnis für die Entscheidungen des letzten Monats und keinen Audit-Trail.
Der Upgrade-Pfad: LLM behalten (eigener Key), Glossar- und Styleguide-Kontext ergänzen, jede Übersetzung bewerten (Quality Estimation), nur unsichere Strings in den menschlichen Review routen, über ein CDN ausliefern.
Wann nicht upgraden: kleines Projekt, wenige Sprachen, keine externen Nutzer. KI-only ist dort eine legitime Wahl.

Was wirklich kaputtgeht

Terminologie-Drift. Jeder Modellaufruf ist zustandslos. Nichts erinnert sich daran, dass "Drive" Ihr Produktname ist, dass "Abo" das Wort war, das Sie für Subscription gewählt haben, oder dass Ihr Spanisch "tú" nutzt und nicht "usted". Über Hunderte Strings und Monate inkrementeller Übersetzungsläufe sammelt derselbe Begriff drei oder vier Varianten an. Nutzer merken es vor Ihnen, denn sie sehen die Screens nebeneinander.

Springende Anrede und Stimme. Verwandt, aber fieser: Das Register wechselt mitten in der App. Ein Screen siezt, der nächste duzt. In Sprachen, in denen dieser Unterschied grammatisch ist (Deutsch, Französisch, Japanisch, Koreanisch), liest sich ein inkonsistentes Register als kaputt, nicht als Stilentscheidung.

Plural- und ICU-Grenzfälle. Englisch hat zwei Pluralformen; Polnisch und Arabisch haben mehr, mit Regeln, die ein Modell einzeln korrekt und im Stapel inkonsistent anwendet. Interpolierte Variablen in ICU-MessageFormat-Strings werden in einem Batch-Lauf leicht zerlegt, und ein kaputter Platzhalter ist kein Stilproblem, sondern ein Laufzeitfehler.

Strings, die Risiko tragen. Rechtstexte, medizinische Formulierungen, Preisangaben, Accessibility-Labels. Das sind genau die Strings, bei denen "das Modell liegt meistens richtig" kein akzeptabler Qualitätsmaßstab ist, und genau die, die eine ungeprüfte Batch-Pipeline wie jeden anderen String ausliefert.

Keine Antwort auf "Wer hat das freigegeben?" Beim ersten Mal, wenn ein Kunde, eine Anwältin oder ein Auditor fragt, warum die App auf Italienisch sagte, was sie sagte, hat eine KI-only-Pipeline genau eine Antwort: ein Git-Commit von einem Bot. Kein Reviewer, kein Entscheidungspfad, kein Qualitätsscore. Für Teams, die die Transparenzpflichten des EU AI Act betreffen (Artikel 50 gilt ab dem 2. August 2026), ist die Frage nicht mehr hypothetisch; unser Artikel-50-Readiness-Check zeigt, was maschinell übersetzte Inhalte auslösen und was nicht.

Das öffentliche Beispiel für das ganze Muster kam im November 2025, als Mozilla seine Support-Inhalte auf KI-first-Lokalisierung umstellte und die langjährige japanische Freiwilligen-Community daraufhin zurücktrat. Die meistgeteilte Kritik in diesem sehr langen Thread war nicht "KI hat übersetzt". Sondern dass nichts Terminologie- und Stilrichtlinien durchsetzte, und Muttersprachler das Ergebnis schlimmer fanden als gar nichts. Das ist der Fehlermodus in einem Satz: nicht die durchschnittliche Übersetzungsqualität, sondern ungovernte Qualitätsvarianz.

Warum bessere Prompts es nicht beheben

Der instinktive Fix ist Prompt-Engineering: Glossar in den Prompt kleben, Stilanweisungen ergänzen, neu laufen lassen. Es hilft, und es ist zugleich ein Laufband:

Der Kontext skaliert nicht. Ihr Glossar, Ihre Stilregeln und vergangenen Entscheidungen wachsen; Kontextfenster und Attention halten nicht Schritt mit "hier sind 400 Terminologie-Entscheidungen, wende alle konsistent auf 3.000 Strings an".
Es gibt kein Gedächtnis zwischen den Läufen. Die sorgfältigen Korrekturen vom letzten Monat sind keine Trainingsdaten für den Batch dieses Monats. Korrigierte Strings regressieren, wenn ein Quellstring sich ändert und neu übersetzt wird.
Es gibt weiterhin kein Gate. Auch ein perfekter Prompt produziert Output, der ungeprüft live geht. Das Problem war nie nur die Übersetzungsqualität; es ist, dass nichts zwischen Modell und Produktion steht.

Konsistenz ist ein Datenproblem (Glossar, Translation Memory), Qualität ein Messproblem (Scoring), Nachvollziehbarkeit ein Workflow-Problem (Review mit Historie). Keines der drei ist ein Prompting-Problem.

Der Upgrade-Pfad: Pipeline behalten, Schicht ergänzen

Das Upgrade weg von KI-only heißt nicht, eine Agentur zu beauftragen oder die Automatisierung aufzugeben. Konkret sieht es mit Locize so aus; jedes Teil ist inkrementell:

Behalten Sie Ihr Modell, geben Sie ihm Kontext. Automatische Übersetzung läuft mit Ihrem eigenen OpenAI-, Gemini- oder Mistral-Key (oder dem eingebauten Dienst). Ihr Glossar und Ihr Styleguide werden in jeden Prompt eingespeist, sodass die Terminologie- und Anrede-Entscheidungen, die Sie längst getroffen haben, automatisch auf jeden künftigen String angewendet werden.
Alles bewerten. Quality Estimation bewertet jede KI-Übersetzung von 0 bis 1 und markiert konkrete Probleme. Den Schwellwert wählen Sie (standardmäßig 0,7).
Nur reviewen, was Augen braucht. Sichere Übersetzungen werden direkt gespeichert; unsichere gehen in den Review-Workflow, wo ein Reviewer sie im Kontext der laufenden App sieht. Accept/Decline-Entscheidungen werden mit Historie aufgezeichnet und lassen sich als Provenance-Nachweis exportieren.
Ohne Redeploy ausliefern. Freigegebene Übersetzungen publizieren über ein globales CDN. Ihre CI-Pipeline läuft weiter; der Schritt "JSON committen und für einen Tippfehler redeployen" entfällt.

Der Nettoeffekt: Dasselbe LLM macht dieselbe Arbeit, aber die Terminologie driftet nicht mehr, riskante Strings bekommen menschliche Augen, und jede Übersetzung in Produktion hat eine Antwort auf "Wer hat das freigegeben, und wie sicher waren wir?".

Wann Sie nicht upgraden sollten

Ehrlichkeit gilt in beide Richtungen. Wenn Sie ein Nebenprojekt betreiben, in zwei, drei Sprachen übersetzen, die Sie selbst gegenlesen können, und weder Umsatz noch Compliance an den Texten hängen, ist ein LLM in der CI plus JSON in Git ein völlig solides Setup, und günstiger als jedes Tool. Die Upgrade-Signale sind konkret: eine Sprache, die niemand im Team liest, ein Übersetzer oder Reviewer, der kein Entwickler ist, ein Begriff, der nie variieren darf, ein String, der eine Anwältin interessiert, oder eine Qualitätsbeschwerde von Nutzern, die Sie nicht zurückverfolgen konnten. Die Woche, in der eines davon auftaucht, ist die Woche, in der sich die Verwaltungsschicht zu rechnen beginnt.

Ein unverbindlicher Weg, den eigenen Stand zu sehen: Ziehen Sie Ihre Locale-Dateien in den kostenlosen i18n-Health-Check. Er läuft komplett im Browser (nichts wird hochgeladen) und zeigt die fehlenden Keys, doppelten Quellwerte und Interpolations-Abweichungen, die Ihre aktuelle Pipeline bereits produziert hat.

Wenn Ihnen mehrere dieser Signale bekannt vorkommen: Starten Sie kostenlos mit Locize, schließen Sie Ihre bestehende Pipeline an (Ihr Key, Ihr Modell) und aktivieren Sie Quality Estimation für den nächsten Batch: Sie sehen die Score-Verteilung Ihres aktuellen KI-Outputs, bevor Sie irgendetwas anderes ändern. Die Seite Warum nicht einfach KI? hat die ehrliche Fassung des gesamten Trade-offs.

Übersetzungen noch von Hand verwalten?

Locize ist das Translation-Management-Backend vom i18next-Team: CDN-Auslieferung, KI-Übersetzung, In-Context-Editing, keine Redeploys.

14 Tage kostenlos testen

← Zurück zum Blog