Wie echt heute digital erzeugte Stimmen klingen können, zeigt das Experiment des amerikanischen Radiosenders NPR. Die Macher liessen die Stimme eines pensionierten Moderators digital klonen. Das Resultat verblüfft: Nach dem Input weniger Sätze ist die Kopie nicht mehr vom Original zu unterscheiden.
Kürzlich appellierte Charles Rettinghaus, Kollege des verstorbenen Synchronsprechers Thomas Danneberg, an Synchronstudios, nicht gezielt «Imitate» für ihn zu casten oder gar KI dafür einzusetzen.
Das Verfahren ist aufwändig, rund 25'000 Dollar kostet die Kopie einer Stimme in hoher Qualität. Grosse Film- oder Gameproduktionen könnten sich das leisten.
Doch der digitale Klon hat eine grosse Schwäche: Die Gemütsverfassung, in der er spricht oder wie er betont, lässt sich nicht gezielt von aussen steuern – eine zwingende Voraussetzung für eine tragende Rolle in einem Film.
Grosser Markt für KI-Stimmen
Sprecherinnen braucht es nicht nur im Film, Stimmen hören wir ständig: in Werbespots, beim Gamen, im Auto aus dem Navi oder bei Telefonassistenten. Der Markt für KI-generierte Stimmen sei viel grösser als der für computergenerierte Musikinstrumente, sagt Leoš Gerteis, Musiker, Produzent und Geschäftsführer der NJP-Studios. Er geht davon aus, dass KI-Software für Stimmen schnell Fortschritte macht.
Schon heute wird KI hinter den Kulissen bei der Produktion von TV-Werbespots eingesetzt. Eine Software spricht eine provisorische Fassung des Texts und gibt so für den Schnitt den Rhythmus vor.
Ist der Kunde zufrieden, spricht ein Profi im Studio den Text nochmals ein – noch erreicht KI nicht das Niveau eines Menschen. Denn zwischen Mensch und sprechender Maschine gebe es einen fundamentalen Unterschied, sagt der Schauspieler und Sprecher Thomas Gass.
Wörter rufen in uns Bilder, Erinnerungen und Gefühle hervor. Emotionen steuern die Art, wie ein Schauspieler spricht, wie er betont. Schauspielerinnen formten die Sprache von innen, die Maschinen von aussen, so Thomas Gass.
Der feine Unterschied
Ohne feine Nuancen stossen KI-Stimmen beim Publikum auf taube Ohren. «In dem Moment, wo wir merken, dass eine Computerstimme zu uns spricht, verliert sie an Glaubwürdigkeit», meint Leoš Gerteis.
Unbewusst sage man sich: Es ist mir doch egal, was mir die Maschine erzählen will – und hängt ab. Für Werbetreibende oder Filmproduzentinnen, die viel Geld in eine Produktion stecken, eine Katastrophe.
Stimmen aus dem Computer werden dann akzeptiert, wenn sie nicht mehr von der eines Menschen zu unterscheiden sind. Wann es so weit ist, hängt auch vom Markt ab: Im Englischen ist die Software weiter fortgeschritten als im Deutschen, Schweizer Dialekte seien unbrauchbar, so Leoš Gerteis – und das dürfte noch lange so bleiben.
Juristischer Graubereich
Für Thomas Gass steht die Angst vor dem Jobverlust nicht an erster Stelle. Nicht die KI mache ihm Angst, sondern die menschliche Dummheit. Er befürchtet, dass seine Stimme missbraucht werden könnte – für die Verbreitung von Fake News etwa. Deshalb braucht es dringend Gesetze, die den Sprechern Sicherheit geben.
Ob man legal die Stimme einer verstorbenen Person klonen darf, liege im juristischen Graubereich, sagt Thomas Gass. Zwar gehört die Stimme zu den biometrischen Daten und verdient besonderen Schutz, doch daraus lässt sich nicht ableiten, ob man etwa die Stimme einer verstorbenen Person digital benutzen darf.
Wir sind deine Korrespondenten aus der digitalen Welt. Ist ein Chip drin oder hängt es am Internet? Wir berichten wöchentlich. Smartphones, soziale Netzwerke, Computersicherheit oder Games – wir erklären und ordnen Digitalisierungs-Vorgänge ein, seit 2006
Um diesen Podcast zu abonnieren, benötigen Sie eine Podcast-kompatible Software oder App. Wenn Ihre App in der obigen Liste nicht aufgeführt ist, können Sie einfach die Feed-URL in Ihre Podcast-App oder Software kopieren.