Worte wollen gehört werden. Das galt zwar auch, bevor die Bilder laufen gelernt haben. Weil sie jedoch kurz nach ihrer Beschleunigung nicht nur sprechen gelernt haben, sondern Exportgüter wurden, lässt Hollywood seine Bilder seit nahezu 100 Jahren bereits übersetzen. Als die Engländerin Joan Barry Max Schmelings deutscher Ehefrau Anny Ondra 1929 den Akzent aus Alfred Hitchcocks Tonfilm „Erpressung“ trieb, war die erste Synchronisation der Filmhistorie zwar noch für den Eigengebrauch Hollywoods gedacht. Sie trat allerdings sofort einen Siegeszug um den Globus an.

In aller Welt werden Filme und Serien seither lokalisiert, wie solche Übersetzungen im Fachjargon heißen. Kaum ein Sprachraum allerdings nutzt die Technik lippensynchroner Verständlichkeit intensiver als der deutsche. Und nirgendwo wird deren Qualität heißer diskutiert. Zuletzt Anfang Februar. Damals hat Magenta die polnische Viaplay-Serie „Murderesses“ aufs Streamingportal gestellt – und ganze zwei Tage später nach DWDL-Recherchen wieder entfernt. Der Grund: die lausige Synchro des israelischen Start-ups Deepdub, das anstelle echter Menschen künstliche Intelligenz verwendet hatte. Die findet beim Erstellen der Dialogbücher oder Wortfetzen sprechender Komparsen durchaus Anwendung.

Dass sämtliche Stimmen einer sechsteiligen Serie synthetisiert werden, fiel hingegen negativ auf. Und es warf Fragen auf, die fast so alt sind wie ihr Medium. Etwa jene, welchen Einfluss Übersetzungen aufs Original nehmen? „Bei einer gelungenen Synchronisation“, antwortet Tobias Jahn, „sollte sie im Idealfall keinen spürbaren haben“. Sofern „die Sprecher zur Rolle passen und ihre Lippenbewegungen zum gesprochenen Wort“, sofern „Rücksicht auf den kulturellen Kontext genommen wird und alles buchstäblich stimmig ist“, sofern sein Beruf also die Arbeit gewissenhafter Fachleute ist, merken aus Sicht des erfahrenen Aufnahmeleiters nur wenig Zuschauer, „nicht das Original zu sehen“. Klingt nach Routine.

Sie steht allerdings im Sturm einer gestressten Branche. „Qualität kostet Zeit“, sagt der Verantwortliche deutscher Übersetzungen globaler Erfolge von „Damengambit“ bis „Yellowjackets“ stellvertretend für sein Metier, „und Zeit ist Geld.“ Zeit und Geld, dass sich Viaplay mit Deepdub-Hilfe still und leise sparen wollte, aber lautstark aufflog. Aus seiner langjährigen Erfahrung als Geschäftsführer des Berliner Tonstudios Sprecherdatei weiß Denis Bergemann schließlich, dass „99 Prozent der Zuschauer nach einer Weile erkennen, wenn Stimmen synthetisch generiert sind“.

Einzelne Sätze von Nebenfiguren bleiben zwar mitunter noch unerkannt; aber weil KI mit Wahrscheinlichkeiten verfügbarer Trainingsdaten, also echtem, im Zweifel urheberrechtlich geschütztem Ausgangsmaterial arbeitet, „ist es in der Synchro nicht einsetzbar“. Wichtiger Zusatz: Vorerst. Was künstliche Intelligenz kennzeichnet, ist ja ihre Lernfähigkeit. Und die geht bei anhaltendem Entwicklungstempo zügig zulasten der künstlerisch Betroffenen – Synchronschauspielerinnen wie Anke Reitzenstein zum Beispiel. Umso erstaunlicher, wie gelassen sie bleibt.

Anke Reitzenstein © Anke Reitzenstein Anke Reitzenstein
„Die Emotionalität einer echten Stimme kann bislang keine KI auch nur ansatzweise erzeugen“, beteuert die Stimme von Hollywood-Stars wie Whitney Houston, Julianna Margulies oder Melissa McCarthy. Nach rund 1600 Übersetzungen in drei Jahrzehnten macht sich die Berlinerin also „schon Gedanken, aber noch keine Sorgen“. Ein Grund für ihre Art gelassener Wachsamkeit ist neben dem Stand der KI-Technik ihr alleiniges Recht am eigenen Tonfall. Und das Wirken der Interessensvertretungen. „Die sind sehr fleißig, wie sich für uns einsetzen. Und durchaus erfolgreich.

Erst vorigen Juni hat sich der Schauspielverband BFFS mit Netflix auf ein festes Regelwerk zum KI-Einsatz geeinigt. Es könnte Vorbildfunktion haben. „Künstliche Stimmen oder Nachbildungen dürfen fortan nur mit ausdrücklicher Zustimmung der betroffenen Künstler:innen eingesetzt werden“, berichtet Tobias Jahn. Der wesensverwandte Sprecherverband VDS kritisiere zwar, dass digitales Training mithilfe realer Originale nicht ausgeschlossen und vergütet werde. Die ver.di-Fachgruppe Medien/Film/Rundfunk befürchtet entsprechend Ausbeutungsverhältnisse und Arbeitsplatzverluste. „Aber die Branche“, sagt Jahn, „beginnt aktiv und strukturiert darauf zu reagieren“.

Das ist auch nötig. Während James Earl Jones Darth Vaders metallischen Bass kurz vor seinem Tod 2024 noch schnell an Disney verkauft hat, können spezialisierte KI-Firmen wie Veritone oder ElevenLabs Stimmen längst klanggleich klonen – in Deutschland etwa die verstorbenem Synchronsprechers Andreas von der Meden alias David Hasselhoff. 95 Jahre, nachdem mit Ernst Lubitschs „The Love Parade“ erstmals ein Hollywood-Film in Babelsberg synchronisiert wurde, sorgt KI also auch hier für Herausforderungen einer disruptiven Branche unter massivem Zeit- und Kostendruck.

Hatten Studios wie Bergemanns Sprecherdatei einst noch „60 Minuten für fünf Takes“ genannte Szenen, produzieren sie im Serienboom der Streamingära das Sechsfache – je nach Auftrag, Sendeplatz, Budget auch mehr. Der Rendite-Druck steigt. Und da ist noch nicht mal vom anhaltenden Trend der Digital Natives die Rede, statt Übersetzungen Originale mit oder ohne Untertitel zu schauen, die noch einfacher KI-generierbar sind. Interessanterweise bereitet Marion Noack beides bislang kein Kopfzerbrechen.

„Streamer wie Netflix oder Disney+ bestätigen, dass synchronisierte Fassungen auch bei jüngeren Zielgruppen die meistgenutzte Audiospur bleiben“, beruhigt die Geschäftsführerin der Studio Hamburg Synchron sich und andere. Nicht nur Ältere hören am Bildschirm halt lieber als zu lesen. „Und bis zur wirklich gelungenen KI-Bearbeitung wird es vermutlich noch einige Zeit dauern.“ Ob das nur Pfeifen im Walde ist – wer weiß… Der Abstand technischer Revolutionen jedenfalls hat sich von gut 60 Jahren zwischen TV und WWW auf knappe 15 zwischen Smartphone und KI geviertelt. Tempo rasant steigend.

Weil Europas Urheberrecht trotz Donald Trumps Attacken darauf funktioniert und die Qualität virtueller Stimmen mit der Quantität noch nicht mithalten kann, macht sich Sprecherdatei-Chef Bergemann erst „Sorgen, falls es sich ändert“. Bis dahin mögen KI-Tonfälle mitunter „täuschend echt klingen, aber es fehlt ihnen an emotionaler Tiefe“. Das Aufputschmittel „Murderesses“ wirkte da fast beruhigend. Furcht bereitet Anke Reitzenstein folglich eher die Auftragslage. „Es gibt momentan einfach irre wenig zu tun“, klagt die Sprecherin. Vielleicht wird sie also doch noch schwach, wenn jemand die Rechte an ihrer Stimme zur freien KI-Nutzung kaufen will. Ihr Preis: „Zehn Millionen Euro.“ Kleiner Scherz in ernster Lage.

Mehr zum Thema