Ist es große Chance unter anderem für die Barrierefreiheit oder ein Spiel mit dem Feuer, wenn die Stimmen realer Journalistinnen und Journalisten mit Hilfe künstlicher Intelligenz so perfekt imitiert werden können, dass sich Nachrichten generieren lassen, die so nie gesprochen wurden? Die Antwort auf diese Frage spaltet nicht nur Institutionen, die sich mit der Zukunft des Journalismus befassen - auch bei RTL Deutschland gibt es neben Begeisterung durchaus Skeptiker. 

Tatjana Anisimov © RTL Deutschland Tatjana Anisimov
Gemeinsam mit Microsoft arbeitet das Kölner Medienunternehmen seit einem Jahr im Rahmen einer umfassenden Partnerschaft zwischen dem Mutterhaus Bertelsmann und dem Technologiekonzern an der Perfektion künstlicher Stimmen. Mit Sprachassistenten wie Alexa oder Siri haben diese längst den Alltag vieler Menschen erreicht, aber auch Medienhäuser sehen Chancen in der Nutzung künstlich generierter Stimmen - für den Ausbau von Angeboten wie auch Einsparmöglichkeiten. „Der Einsatz von synthetischen Stimmen in der Medienbranche hat ein enormes Potenzial“, sagt Tatjana Anisimov, Product Innovation Manager bei RTL Deutschland, auf DWDL.de-Anfrage zum Einjährigen des Projekts. „Für Menschen mit Seheinschränkungen oder in Momenten, in denen die Hände gebraucht werden schaffen wir einen Mehrwert und breiten Zugang zu unserem Nachrichtenangebot.“ 

"Vom menschlichen Original nicht mehr zu unterscheiden"

Text-to-Speech ist der erste Schritt, der von RTL Deutschland seit April auf ntv.de bereits umgesetzt wird. Genutzt werden dafür - und das ist die Innovation - die synthetisierten Stimmen realer Personen, um dem Publikum keine neuen künstlichen, sondern „vertraute Stimmen“ zu bieten. Ein Zitat aus der ersten öffentlichen Pressemitteilung: „Für einen Showcase hat RTL Deutschland die Stimmen von RTL-Moderator Maik Meuser und Podcast-Host Inken Wriedt aufgenommen und durch ein künstliches neuronales Netz synthetisiert, das jetzt die neuen Text-to-Speech-Anwendungen von RTL ermöglicht. Aus vier Stunden gesprochenem Text sind im Rahmen des Projekts lebensechte, natürlich klingende Versionen der Stimmen entstanden, die vom menschlichen Original nicht mehr zu unterscheiden sind.“

Der Deutsche Journalistenverband (DJV) wird das auf DWDL.de-Anfrage scharf verurteilen. Doch zunächst einmal zieht RTL-Managerin Tatjana Anisimov zufrieden Bilanz: „Das Feature wurde nach seinem Launch für sieben Wochen auf ntv.de und in den Apps getestet. In diesem Zeitraum haben wir Usability-Tests und User-Interviews durchgeführt, die als Grundlage für die Weiterentwicklung der Funktion dienen.“ Ein Learning auch: Nicht alle Texte eigenen sich, wenn etwa zu viele Fremdwörter genutzt werden oder ein Text „natürlich fürs Lesen statt Hören geschrieben wurde“. Inzwischen hat man in Köln basierend auf den Erfahrungen der vergangenen Monate den Softlaunch der nächsten Stufe vollzogen. Jetzt werde bei der automatisierten Vertonung „nur noch ein gezielter manueller Quality-Check erfolgen.“

Neben weitgehend automatisierten Text-to-Speech-Angeboten denkt RTL Deutschland in Zukunft auch an personalisierte Audio-News-Briefings. Christian Schalt von RTL Radio plane zudem die Nutzung der Stimmen im Radio, um Nachrichten zu Randzeiten ansagen zu lassen. Das waren zumindest die Ankündigungen aus dem April. Wie weit ist man heute? „Um den Jahreswechsel planen wir unser Angebot als Pilotprojekt zu launchen“, teilt Tatjana Anisimov auf Anfrage mit. „Den geplanten Einsatz im Bereich Radio werden wir ankündigen, sobald er in Sicht ist.“

RTL Deutschland und Microsoft betonen, sich der Verantwortung bei der Nutzung künstlich erzeugter Stimmen bewusst zu sein. Schon bei der Ankündigung adressierte man Bedenken. Das Pilotprojekt folge strengen ethischen Vorgaben, die in den Richtlinien von Microsoft für den verantwortungsvollen Umgang mit künstlicher Intelligenz festgeschrieben sind. So werden synthetische Stimmen klar erkennbar gekennzeichnet. Auch inhaltlich gebe es klare Richtlinien. Ausgeschlossen von der Synthetisierung mittels KI seien u.a. alle Inhalte, welche die Meinungsbildung manipulativ beeinflussen könnten. Man berate sich zu dem Thema auch mit der Landesanstalt für Medien NRW, deren Journalism Lab Partner des Projekts ist.

Maik Meuser © RTL Deutschland Maik Meuser
Doch ein gewisses Unbehagen bleibt - sagt nicht irgendwer, sondern ausgerechnet der Mann, der seine Stimme für dieses Projekt hergibt: RTL-Moderator Maik Meuser. Klingt kurios, ist aber so. „Etwas zu hören, was ich selber nie gesagt habe mit meiner Stimme. Das fühlt sich nicht so besonders gut an. Das kann ich schon mal unterschreiben“, erklärt der echte Meuser. „Weil die Stimme natürlich schon ein bisschen sehr persönlich ist und wenn das genutzt wird, um etwas komplett anderes zu sagen, als es meinem Leben entspricht, dann finde ich das schon sehr bedenklich.“

Meuser sagt das eingebettet in einen ansonsten weitgehend euphorischen Video-Beitrag zum Projekt mit Microsoft, den RTL Deutschland veröffentlicht hat. Von einem auf den anderen Satz, gleich nach der Sorge Meusers, kommt seine künstliche Stimme zu Wort. Es ist wahrlich ein merkwürdiger Beitrag, in dessen weiteren Verlauf geschwärmt wird, wie schnell sich dank der Microsoft-Technologie echte Stimmen imitieren lassen. Als Lob auf die Technik ist das nach Jahren von Roboter-ähnlichen Stimmen ein entscheidendes Qualitätsmerkmal. Doch darüber hinaus? Die Dachzeile des Artikels auf ntv.de erklärt stolz: „Zum Verwechseln ähnlich“. Der Text frohlockt dann: „Eine KI erzeugt täuschend echte synthetische Stimmen.“

Zum Verwechseln ähnlich, täuschend echt

Den Stolz auf zum Verwechseln ähnliche, täuschend echte Imitationen von Journalistinnen und Journalisten kann man befremdlich finden. Er wirft auf jeden Fall rechtliche und ethische Fragen auf. Wer ist verantwortlich für das Gesagte, wenn Rezipienten dank der perfektionierten Technik glauben, es wäre der echte Nachrichtensprecher oder die echte Nachrichtensprecherin? Im Radio beispielsweise oder bei der Vertonung von Beiträgen aus dem Off. An die Kennzeichnungspflicht werden sich schließlich die, die sie missbrauchen wollen, kaum halten. Würde das Publikum Maik Meuser Justiziables sagen hören, müsste es ihn anklagen - für etwas, was er nie gesagt hat? Es stellen sich auch Fragen zum Recht an der eigenen Stimme - und was passiert überhaupt mit ihr, wenn der oder die Stimmgebende das Unternehmen verlässt oder verstirbt?

Hendrik Zörner © DJV Hendrik Zörner
Beim DJV ist man, anders als beim Journalism Lab der Landesanstalt für Medien NRW (geführt vom ehemaligen Cheflobbyisten von RTL) entsetzt über das Projekt von RTL Deutschland und Microsoft. „Das geht gegen alle Prinzipien des glaubwürdigen Journalismus, auf die unser Berufsstand aufbaut“, erklärt DJV-Sprecher Hendrik Zörner gegenüber DWDL. „Hörer und Zuschauer müssen sich auf die Echtheit, die Authentizität des gesprochenen Wortes verlassen können. Damit wäre es vorbei, wenn künstliche Stimmen im Journalismus eingesetzt würden.“ Vor dem Hintergrund der im Sommer bekannt gewordenen Deepfakes von Vitali Klitschko, mit dem mehrere europäische Politikerinnen und Politiker hereingelegt wurden, ergänzt Zörner: „Für die journalistische Glaubwürdigkeit wäre das tödlich. Viele Medien stehen jetzt schon in der Kritik der Mediennutzer. Das wäre der berühmte Tick zu viel.“ 

Und was sagt RTL-Managerin Tatjana Anisimov zu dem Vorwurf, man würde vor dem Hintergrund aktueller Deepfakes mit synthetisierten Nachrichtenstimmen die Büchse der Pandora in puncto Glaubwürdigkeit öffnen? „Der Ruf von Deepfakes ist so negativ konnotiert, da sie häufig böse oder gar kriminelle Absichten verfolgen. Je realistischer synthetische Medien klingen und aussehen, desto größer ist auch das Risiko für Missbrauch und Täuschung – das ist uns bewusst. Den Unterschied zwischen einem boshaften und einem verantwortungsbewussten Einsatz der Technologie ist deswegen die transparente Kennzeichnung. Wir legen bei jeder Audio-Version eines Artikels offen, dass dieser künstlich generiert wurde und machen auf die positiven Auswirkungen von synthetischen Stimmen aufmerksam. Das zahlt auf unsere Glaubwürdigkeit und Seriosität enorm ein.“

Der starke Widerstand des DJV gegen synthetische Nachrichtenstimmen - er ist sicher nicht nur von der Sorge um den Journalismus, sondern der Sorge um Arbeit für Journalistinnen und Journalisten geprägt. Letztlich ist der DJV in erster Linie eine Gewerkschaft mit mehr als 30.000 organisierten Mitgliedern. Zum angedachten Einsatz künstlicher Stimmen als Ersatz für reale Mitarbeiterinnen und Mitarbeiter zu Randzeiten im Radio erklärt DJV-Sprecher Zörner dementsprechend erwartbar: „Es ist schon klar, dass Medienunternehmer hier Morgenluft wittern. Aber es darf nicht dazu kommen, journalistische Leistungen durch Maschinenstimmen zu ersetzen.“ Ganz pragmatische Sorgen um Arbeitsplätze treffen bei dem Thema auf viel weitreichendere Grundsatzfragen, deren volle Tragweite erst selten diskutiert wurde.

„In der Zukunft werden synthetische Medien eine große Rolle spielen und wir bewegen uns immer schneller auf diese Zukunft zu“, sagt RTL-Managerin Tatjana Anisimov. „Deswegen sollten wir schon jetzt anfangen uns als Gesellschaft dafür zu sensibilisieren und einen verantwortungsvollen Umgang mit dieser Technologie zu finden, schließlich lässt sie sich nicht mehr aufhalten.“ Schließlich ergeben sich neue Nutzungsszenarien, die dabei helfen können, in mehr Bereichen Barrierefreiheit zu gewährleisten. Ob dafür neben künstlichen Stimmen auch die täuschend echte Imitation von Stimmen realer Menschen genutzt werden sollte, steht auf einem anderen Blatt. Die Haltung des DJV dazu ist klar. Und einige Fragen bleiben noch offen.