Zum Inhalt springen

Künstliche Intelligenz Von wegen intelligent: Auch ChatGPT macht Rechtschreibfehler

Text-KI können beim Training auch Fehler lernen. Die Entwickler versuchen, das zu verhindern – nicht immer mit Erfolg.

Künstliche Intelligenz sorgt regelmässig für Schlagzeilen – auch jetzt, wo in vielen Kantonen wieder die Schule anfängt. Schülerinnen und Schüler lassen sich von KI-Diensten wie ChatGPT bei den Hausaufgaben helfen und Lehrpersonen nutzen die Technologie etwa zum Schreiben von Berichten.

Dass man sich auf die Informationen dieser scheinbar intelligenten Systeme nicht immer verlassen kann, hat sich mittlerweile herumgesprochen. Aber für Schülerinnen, Lehrer und alle anderen auch wichtig: Wie steht es um die Rechtschreibung der grossen Sprachmodelle?

Am besten weiss es wohl ChatGPT selbst. Ich frage also: «Liebes ChatGPT, machst du manchmal auch Rechtschreibfehler?» Und bekomme zur Antwort: «Auch ich als KI-Modell mache gelegentlich Rechtschreibfehler. Daher ist es ratsam, meine Antworten kritisch zu betrachten.»

Ganz so intelligent ist also auch die künstliche Intelligenz nicht.

Statistik bestimmt die Rechtschreibung

Aber wie können sich Rechtschreibfehler in so ein System einschleichen? Dazu muss man sich bewusst machen, wie ChatGPT und Co. überhaupt Schreiben lernen: Das System wird dazu mit Unmengen von Daten trainiert – Texten aus dem Internet, aus Wikipedia und aus Büchern – und lernt so, welches Wort statistisch am wahrscheinlichsten auf das nächste folgt.

Das gilt auch für die Rechtschreibung: Die Statistik gibt vor, wie ein Wort geschrieben wird. Nun ist davon auszugehen, dass die meisten Wörter im Trainingsmaterial eher richtig als falsch buchstabiert sind – doch es gibt Ausnahmen: Wörter, die in Büchern und auf Webseiten selten vorkommen, Dialektwörter zum Beispiel.

Um dort Rechtschreibfehler zu vermeiden, gewichten die Entwickler qualitativ hochwertige Texte – aus Büchern oder Wikipedia – im Training höher als andere Textsorten.

100'000 Wörter immer fehlerfrei

Und Sprachmodelle wie ChatGPT werden noch zusätzlich gedrillt, weiss Jannis Vamvas, Computerlinguist an der Universität Zürich. «Sie sollen Antworten geben, die für die Nutzerinnen und Nutzer besonders hilfreich sind. Dazu gehört auch ein gepflegter Sprachstil und eine korrekte Rechtschreibung.»

Ein Beispiel

Box aufklappen Box zuklappen

Jannis Vamvas, Computerlinguist an der Uni Zürich, macht ein Beispiel: «Nehmen wir den Namen Albert Rösti – ‹Albert› findet sich in der Wortliste, aber ‹Rösti› ist ein seltener Name – man kann dem System zusehen, wie es ihn aus ‹R›, ‹ö› und ‹sti› zusammensetzt.»

Ausserdem werden die wichtigsten 100'000 Wörter und Wortbestandteile in einer festen Wortliste bereitgehalten, sodass die KI sie einfach abrufen kann. Seltenere Wörter und Eigennamen aber müssen immer buchstabiert werden – und damit steigt die Gefahr für Rechtschreibfehler.

Die ganze Vielfalt der Sprache

Blind sollte man einem Sprachmodell also nicht vertrauen. Aber trotzdem greifen immer mehr Leute auf die Hilfe von KI zurück. Der Logik der Systeme folgend entstehen dabei Texte, die sich am Durchschnitt orientieren – gut verständlich, aber nicht besonders spannend.

Könnte das einen Einfluss auf die geschriebene Sprache haben? Durchaus möglich, meint der Computerlinguist, schliesslich seien Dienste wie ChatGPT heute kein Randphänomen mehr: «Aber die Technik wird sich weiterentwickeln und ich denke, auf lange Sicht werden sich Produkte durchsetzen, welche die ganze Vielfalt der Sprache abbilden.»

Das könnten dann KI sein, die trainiert wurden, in möglichst lebendiger Sprache zu antworten. Oder die Texte in ganz bestimmten Dialekten als Trainingsmaterial hatten – Berndeutsch zum Beispiel, sodass in Zukunft keine KI mehr den Namen «Rösti» falsch buchstabieren muss.

SRF 3, 16.8.2023, 10:10 Uhr

Meistgelesene Artikel