Wer schon einmal die Diktierfunktion seines Smartphones gebraucht hat, weiss: Das Gerät kann so gut wie fehlerfrei mitschreiben, was immer man ihm diktiert – vorausgesetzt, man tut es auf Hochdeutsch. Auf Schweizerdeutsch funktioniert die automatische Verschriftlichung gesprochener Sprache dagegen kaum.
Das Problem: Die Algorithmen zur automatischen Spracherkennung müssen mit Unmengen von Daten trainiert werden, um eine bestimmte Sprache erkennen zu lernen. Solche riesigen Sets mit Trainingsdaten gibt es für Englisch, Deutsch und andere weitverbreitete Sprachen – für das Schweizerdeutsche aber nicht.
Selbst für grosse Unternehmen wie Apple, Google oder Microsoft lohne es sich nicht, solche Sprachdaten zu sammeln, sagt David Imseng, Chef des Walliser Unternehmens Recapp IT, das sich auf Mundarterkennung spezialisiert hat: «Es ist aufwändig, dieses Datenmaterial zu generieren. Und weil es nicht viele Leute gibt, die Schweizerdeutsch verstehen und das Lohnniveau in der Schweiz hoch ist, sind solche Datensätze sehr wertvoll.»
Eineinviertel Millionen Stunden Tonmaterial
Einen riesigen solchen Datensatz besitzt das Schweizer Radio und Fernsehen SRF: Etwa 6 Millionen Gigabytes an Audio- und Videomaterial hat SRF bis heute digitalisiert – gut eineinviertel Millionen Stunden gesprochene Inhalte, viele davon auf Schweizerdeutsch. In Zusammenarbeit mit SRF hat Recapp sein System mit 500 Stunden dieses Materials trainiert und dabei die Dialekterkennung deutlich verbessert.
500 Stunden – nur ein Bruchteil des gesamten Archivmaterials also. Denn: Das Aufbereiten der Daten ist aufwändig. Damit ein Spracherkennungssystem auch weiss, was in einer Tonaufnahme gesagt wird, müssen alle Inhalte zuerst verschriftlicht werden. Bei der Zusammenarbeit von Recapp und SRF sind für jede Minute Material 10 Minuten Arbeit nötig gewesen.
Einsatz im Callcenter
Der Aufwand hat sich gelohnt: Dank der automatischen Spracherkennung kann SRF bestimmte Archivinhalte heute automatisch verschriftlichen lassen – ohne dass sich jemand von vorne bis hinten durch das Material hören muss und danach ein Transkript erstellt. Die Verschriftlichung kann bei der automatischen Kategorisierung von Beiträgen helfen oder erleichtert das Bestimmen, ob positiv oder negativ über ein Thema berichtet wurde.
Die Technologie kann auch Leuten helfen, die Protokolle schreiben, Interviews abtippen oder andere Transkriptionsaufgaben erledigen müssen, Studenten zum Beispiel oder Journalistinnen. Automatische Dialekterkennung kommt auch in Callcenter zum Einsatz, um Kundengespräche schnell und einfach zu verschriftlichen. Und in kantonale Parlamenten wird das Protokollieren von Sitzungen damit beschleunigt.
Die Maschine weiss nicht, was sie schreibt
Ganz ohne Fehler geht das nicht. Auch bei Material mit guter Audioqualität ist jedes 10. automatisch verschriftlichte Wort heute noch falsch. Allerdings: Auch der Mensch habe beim Verschriftlichen eine Fehlerquote von gut 4 Prozent, weiss David Imseng.
Aber im Unterschied zum Menschen wisse die Maschine beim Transkribieren nicht, was sie schreibt: «Der Computer hat kein semantisches Verständnis, er generiert einfach die wahrscheinlichste Wortfolge», sagt Imseng. «Dabei können auch Sachen herauskommen, die keinen Sinn ergeben, aber in etwa dem entsprechen, das akustisch gesagt wurde.»
Wir sind deine Korrespondenten aus der digitalen Welt. Ist ein Chip drin oder hängt es am Internet? Wir berichten wöchentlich. Smartphones, soziale Netzwerke, Computersicherheit oder Games – wir erklären und ordnen Digitalisierungs-Vorgänge ein, seit 2006
Um diesen Podcast zu abonnieren, benötigen Sie eine Podcast-kompatible Software oder App. Wenn Ihre App in der obigen Liste nicht aufgeführt ist, können Sie einfach die Feed-URL in Ihre Podcast-App oder Software kopieren.