Bis zu 13 Billionen Tokens seien nötig gewesen, um GPT-4 zu trainieren, das neuste Modell von ChatGPT. Ein Token, das kann ein einzelnes Wort sein, ein Wort-Bestandteil oder ein Satz-Zeichen.
13 Billionen – diese unfassbar grosse Menge verblasst vor der Anzahl Tokens, die wohl zum Training des Nachfolgemodells nötig sind. Denn um besser zu werden, benötigen neue KI-Modelle vor allem eines: Noch mehr Daten als ihre Vorgänger. Das Trainingsmaterial von GPT-5 wird darum auf bis zu 100 Billionen Tokens geschätzt.
Schon 2026 keine hochwertigen Daten mehr
Gibt es auf der Welt überhaupt noch genug Texte, die als Trainings-Material dienen können? Vielleicht nicht mehr lange, sagt Patrick Giedemann, der sich an der Zürcher Hochschule für angewandte Wissenschaften ZHAW mit KI wie ChatGPT beschäftigt: «Einige wissenschaftliche Artikel sagen, dass wir bereits im Jahr 2026 keine noch nicht verwendete hochwertigen Daten mehr haben.» Texte von hoher Qualität also, wie man sie etwa in Büchern, in wissenschaftlichen Artikeln oder in der Wikipedia findet.
Bis jetzt haben sich KI-Unternehmen wenig zimperlich gezeigt, wenn es darum ging, an Trainingsdaten zu kommen: Sie haben ihre KIs auch mit Texten trainiert, die urheberrechtlich geschützt sind oder bei denen zumindest nicht klar ist, ob sie zum KI-Training überhaupt verwendet werden dürfen. Verschiedene Unternehmen sehen sich denn auch mit Klagen konfrontiert.
Der Datenhunger lässt sich kaum stillen
In letzter Zeit versuchen sie deshalb Abkommen mit Medienhäusern und Verlagen zu schliessen, um auf legale Weise an neues, hochwertiges Trainingsmaterial zu kommen.
Doch über kurz oder lang werden auch solche neuen Quellen nicht reichen, um den Heisshunger der generativen KI-Modelle nach hochwertigen Daten zu stillen, weiss Patrick Giedemann: «Diese Quellen wachsen zwar jedes Jahr um vier bis fünf Prozent – aber irgendwann sind wir auch dort am Ende.»
Ohne neues, hochwertiges Trainingsmaterial werden es kommende KI-Modelle schwer haben, ihre Vorgänger noch zu übertreffen.
Lässt sich der «Model Collapse» verhindern?
Eine Lösung könnten synthetische Daten sein: Daten, die sich wie echte Daten verhalten, aber am Computer hergestellt werden. Dass man zum Beispiel ein neues Modell von ChatGPT mit Texten trainiert, die ein vorhergehendes Modell geschrieben hat.
Auf diese Weise lässt sich einfach und schnell viel neues Trainingsmaterial generieren. Doch die KI läuft dabei Gefahr, Fehler und Falschinformationen ihrer Vorgänger zu übernehmen und mit jeder Generation dümmer zu werden. «Die Wissenschaft ist sich nicht einig, ob sich dieser sogenannte 'Model Collapse ' verhindern lässt», sagt Patrick Giedemann.
Kleinere Modelle, weniger Daten
Doch Giedemann ist optimistisch, dass die Wissenschaft Wege findet, das Daten-Problem zu lösen. Zum Beispiel mit kleineren KI-Modellen, die nicht mehr auf jede Frage eine Antwort geben können, dafür auch nicht mehr mit unvorstellbar grossen Mengen von Daten trainiert werden müssen. Oder es können neue Lernmethoden sein, die mit weniger Trainingsdaten auskommen. Zum Beispiel, indem sich die KI beim Lernen bestimmte Gesetzmässigkeiten der Mathematik oder Grammatik zu eigen macht.
Eine befriedigende Lösung ist aber noch nicht gefunden. Man kann darum gespannt sein, ob GPT-5 tatsächlich noch viel leistungsfähiger sein wird als seine Vorgänger.
Wir sind deine Korrespondenten aus der digitalen Welt. Ist ein Chip drin oder hängt es am Internet? Wir berichten wöchentlich. Smartphones, soziale Netzwerke, Computersicherheit oder Games – wir erklären und ordnen Digitalisierungs-Vorgänge ein, seit 2006
Um diesen Podcast zu abonnieren, benötigen Sie eine Podcast-kompatible Software oder App. Wenn Ihre App in der obigen Liste nicht aufgeführt ist, können Sie einfach die Feed-URL in Ihre Podcast-App oder Software kopieren.