Zum Inhalt springen
Audio
Daten für KI werden knapp
Aus Rendez-vous vom 29.05.2024. Bild: Keystone/ OLIVER BERG
abspielen. Laufzeit 6 Minuten 21 Sekunden.

Keine Trainings-Daten mehr Schon 2026 gehen der Künstlichen Intelligenz die Daten aus

Beim KI-Training gilt: Mehr ist mehr. Doch die Trainings-Daten versiegen. Und neue Quellen haben ihre eigenen Probleme.

Bis zu 13 Billionen Tokens seien nötig gewesen, um GPT-4 zu trainieren, das neuste Modell von ChatGPT. Ein Token, das kann ein einzelnes Wort sein, ein Wort-Bestandteil oder ein Satz-Zeichen.

Audio
Der hungrigen KI gehen die Daten aus
58:20 min Bild: Dieses hungrige Flusspferd könnte bald ziemlich übellaunig werden
abspielen. Laufzeit 58 Minuten 20 Sekunden.

13 Billionen – diese unfassbar grosse Menge verblasst vor der Anzahl Tokens, die wohl zum Training des Nachfolgemodells nötig sind. Denn um besser zu werden, benötigen neue KI-Modelle vor allem eines: Noch mehr Daten als ihre Vorgänger. Das Trainingsmaterial von GPT-5 wird darum auf bis zu 100 Billionen Tokens geschätzt.

Schon 2026 keine hochwertigen Daten mehr

Gibt es auf der Welt überhaupt noch genug Texte, die als Trainings-Material dienen können? Vielleicht nicht mehr lange, sagt Patrick Giedemann, der sich an der Zürcher Hochschule für angewandte Wissenschaften ZHAW mit KI wie ChatGPT beschäftigt: «Einige wissenschaftliche Artikel sagen, dass wir bereits im Jahr 2026 keine noch nicht verwendete hochwertigen Daten mehr haben.» Texte von hoher Qualität also, wie man sie etwa in Büchern, in wissenschaftlichen Artikeln oder in der Wikipedia findet.

Bis jetzt haben sich KI-Unternehmen wenig zimperlich gezeigt, wenn es darum ging, an Trainingsdaten zu kommen: Sie haben ihre KIs auch mit Texten trainiert, die urheberrechtlich geschützt sind oder bei denen zumindest nicht klar ist, ob sie zum KI-Training überhaupt verwendet werden dürfen. Verschiedene Unternehmen sehen sich denn auch mit Klagen konfrontiert.

Der Datenhunger lässt sich kaum stillen

In letzter Zeit versuchen sie deshalb Abkommen mit Medienhäusern und Verlagen zu schliessen, um auf legale Weise an neues, hochwertiges Trainingsmaterial zu kommen.

Doch über kurz oder lang werden auch solche neuen Quellen nicht reichen, um den Heisshunger der generativen KI-Modelle nach hochwertigen Daten zu stillen, weiss Patrick Giedemann: «Diese Quellen wachsen zwar jedes Jahr um vier bis fünf Prozent – aber irgendwann sind wir auch dort am Ende.»

Ohne neues, hochwertiges Trainingsmaterial werden es kommende KI-Modelle schwer haben, ihre Vorgänger noch zu übertreffen.

Lässt sich der «Model Collapse» verhindern?

Eine Lösung könnten synthetische Daten sein: Daten, die sich wie echte Daten verhalten, aber am Computer hergestellt werden. Dass man zum Beispiel ein neues Modell von ChatGPT mit Texten trainiert, die ein vorhergehendes Modell geschrieben hat.

Auf diese Weise lässt sich einfach und schnell viel neues Trainingsmaterial generieren. Doch die KI läuft dabei Gefahr, Fehler und Falschinformationen ihrer Vorgänger zu übernehmen und mit jeder Generation dümmer zu werden. «Die Wissenschaft ist sich nicht einig, ob sich dieser sogenannte 'Model Collapse' verhindern lässt», sagt Patrick Giedemann.

Kleinere Modelle, weniger Daten

Doch Giedemann ist optimistisch, dass die Wissenschaft Wege findet, das Daten-Problem zu lösen. Zum Beispiel mit kleineren KI-Modellen, die nicht mehr auf jede Frage eine Antwort geben können, dafür auch nicht mehr mit unvorstellbar grossen Mengen von Daten trainiert werden müssen. Oder es können neue Lernmethoden sein, die mit weniger Trainingsdaten auskommen. Zum Beispiel, indem sich die KI beim Lernen bestimmte Gesetzmässigkeiten der Mathematik oder Grammatik zu eigen macht.

Eine befriedigende Lösung ist aber noch nicht gefunden. Man kann darum gespannt sein, ob GPT-5 tatsächlich noch viel leistungsfähiger sein wird als seine Vorgänger.

Rendez-vous, 29.05.2024, 12:55 Uhr

Meistgelesene Artikel