Künstliche Intelligenz sorgt regelmässig für Schlagzeilen – auch jetzt, wo in vielen Kantonen wieder die Schule anfängt. Schülerinnen und Schüler lassen sich von KI-Diensten wie ChatGPT bei den Hausaufgaben helfen und Lehrpersonen nutzen die Technologie etwa zum Schreiben von Berichten.
Dass man sich auf die Informationen dieser scheinbar intelligenten Systeme nicht immer verlassen kann, hat sich mittlerweile herumgesprochen. Aber für Schülerinnen, Lehrer und alle anderen auch wichtig: Wie steht es um die Rechtschreibung der grossen Sprachmodelle?
Am besten weiss es wohl ChatGPT selbst. Ich frage also: «Liebes ChatGPT, machst du manchmal auch Rechtschreibfehler?» Und bekomme zur Antwort: «Auch ich als KI-Modell mache gelegentlich Rechtschreibfehler. Daher ist es ratsam, meine Antworten kritisch zu betrachten.»
Ganz so intelligent ist also auch die künstliche Intelligenz nicht.
Statistik bestimmt die Rechtschreibung
Aber wie können sich Rechtschreibfehler in so ein System einschleichen? Dazu muss man sich bewusst machen, wie ChatGPT und Co. überhaupt Schreiben lernen: Das System wird dazu mit Unmengen von Daten trainiert – Texten aus dem Internet, aus Wikipedia und aus Büchern – und lernt so, welches Wort statistisch am wahrscheinlichsten auf das nächste folgt.
Das gilt auch für die Rechtschreibung: Die Statistik gibt vor, wie ein Wort geschrieben wird. Nun ist davon auszugehen, dass die meisten Wörter im Trainingsmaterial eher richtig als falsch buchstabiert sind – doch es gibt Ausnahmen: Wörter, die in Büchern und auf Webseiten selten vorkommen, Dialektwörter zum Beispiel.
Um dort Rechtschreibfehler zu vermeiden, gewichten die Entwickler qualitativ hochwertige Texte – aus Büchern oder Wikipedia – im Training höher als andere Textsorten.
100'000 Wörter immer fehlerfrei
Und Sprachmodelle wie ChatGPT werden noch zusätzlich gedrillt, weiss Jannis Vamvas, Computerlinguist an der Universität Zürich. «Sie sollen Antworten geben, die für die Nutzerinnen und Nutzer besonders hilfreich sind. Dazu gehört auch ein gepflegter Sprachstil und eine korrekte Rechtschreibung.»
Ausserdem werden die wichtigsten 100'000 Wörter und Wortbestandteile in einer festen Wortliste bereitgehalten, sodass die KI sie einfach abrufen kann. Seltenere Wörter und Eigennamen aber müssen immer buchstabiert werden – und damit steigt die Gefahr für Rechtschreibfehler.
Die ganze Vielfalt der Sprache
Blind sollte man einem Sprachmodell also nicht vertrauen. Aber trotzdem greifen immer mehr Leute auf die Hilfe von KI zurück. Der Logik der Systeme folgend entstehen dabei Texte, die sich am Durchschnitt orientieren – gut verständlich, aber nicht besonders spannend.
Könnte das einen Einfluss auf die geschriebene Sprache haben? Durchaus möglich, meint der Computerlinguist, schliesslich seien Dienste wie ChatGPT heute kein Randphänomen mehr: «Aber die Technik wird sich weiterentwickeln und ich denke, auf lange Sicht werden sich Produkte durchsetzen, welche die ganze Vielfalt der Sprache abbilden.»
Das könnten dann KI sein, die trainiert wurden, in möglichst lebendiger Sprache zu antworten. Oder die Texte in ganz bestimmten Dialekten als Trainingsmaterial hatten – Berndeutsch zum Beispiel, sodass in Zukunft keine KI mehr den Namen «Rösti» falsch buchstabieren muss.
Wir sind deine Korrespondenten aus der digitalen Welt. Ist ein Chip drin oder hängt es am Internet? Wir berichten wöchentlich. Smartphones, soziale Netzwerke, Computersicherheit oder Games – wir erklären und ordnen Digitalisierungs-Vorgänge ein, seit 2006
Um diesen Podcast zu abonnieren, benötigen Sie eine Podcast-kompatible Software oder App. Wenn Ihre App in der obigen Liste nicht aufgeführt ist, können Sie einfach die Feed-URL in Ihre Podcast-App oder Software kopieren.