Inhalt

Keine Trainings-Daten mehr Schon 2026 gehen der Künstlichen Intelligenz die Daten aus

Beim KI-Training gilt: Mehr ist mehr. Doch die Trainings-Daten versiegen. Und neue Quellen haben ihre eigenen Probleme.

Autor: Jürg Tschirren

31.05.2024, 10:33

Bis zu 13 Billionen Tokens seien nötig gewesen, um GPT-4 zu trainieren, das neuste Modell von ChatGPT. Ein Token, das kann ein einzelnes Wort sein, ein Wort-Bestandteil oder ein Satz-Zeichen.

13 Billionen – diese unfassbar grosse Menge verblasst vor der Anzahl Tokens, die wohl zum Training des Nachfolgemodells nötig sind. Denn um besser zu werden, benötigen neue KI-Modelle vor allem eines: Noch mehr Daten als ihre Vorgänger. Das Trainingsmaterial von GPT-5 wird darum auf bis zu 100 Billionen Tokens geschätzt.

Schon 2026 keine hochwertigen Daten mehr

Gibt es auf der Welt überhaupt noch genug Texte, die als Trainings-Material dienen können? Vielleicht nicht mehr lange, sagt Patrick Giedemann, der sich an der Zürcher Hochschule für angewandte Wissenschaften ZHAW mit KI wie ChatGPT beschäftigt: «Einige wissenschaftliche Artikel sagen, dass wir bereits im Jahr 2026 keine noch nicht verwendete hochwertigen Daten mehr haben.» Texte von hoher Qualität also, wie man sie etwa in Büchern, in wissenschaftlichen Artikeln oder in der Wikipedia findet.

Bis jetzt haben sich KI-Unternehmen wenig zimperlich gezeigt, wenn es darum ging, an Trainingsdaten zu kommen: Sie haben ihre KIs auch mit Texten trainiert, die urheberrechtlich geschützt sind oder bei denen zumindest nicht klar ist, ob sie zum KI-Training überhaupt verwendet werden dürfen. Verschiedene Unternehmen sehen sich denn auch mit Klagen konfrontiert.

Der Datenhunger lässt sich kaum stillen

In letzter Zeit versuchen sie deshalb Abkommen mit Medienhäusern und Verlagen zu schliessen, um auf legale Weise an neues, hochwertiges Trainingsmaterial zu kommen.

Doch über kurz oder lang werden auch solche neuen Quellen nicht reichen, um den Heisshunger der generativen KI-Modelle nach hochwertigen Daten zu stillen, weiss Patrick Giedemann: «Diese Quellen wachsen zwar jedes Jahr um vier bis fünf Prozent – aber irgendwann sind wir auch dort am Ende.»

Ohne neues, hochwertiges Trainingsmaterial werden es kommende KI-Modelle schwer haben, ihre Vorgänger noch zu übertreffen.

Lässt sich der «Model Collapse» verhindern?

Eine Lösung könnten synthetische Daten sein: Daten, die sich wie echte Daten verhalten, aber am Computer hergestellt werden. Dass man zum Beispiel ein neues Modell von ChatGPT mit Texten trainiert, die ein vorhergehendes Modell geschrieben hat.

Auf diese Weise lässt sich einfach und schnell viel neues Trainingsmaterial generieren. Doch die KI läuft dabei Gefahr, Fehler und Falschinformationen ihrer Vorgänger zu übernehmen und mit jeder Generation dümmer zu werden. «Die Wissenschaft ist sich nicht einig, ob sich dieser sogenannte 'Model Collapse' verhindern lässt», sagt Patrick Giedemann.

Kleinere Modelle, weniger Daten

Doch Giedemann ist optimistisch, dass die Wissenschaft Wege findet, das Daten-Problem zu lösen. Zum Beispiel mit kleineren KI-Modellen, die nicht mehr auf jede Frage eine Antwort geben können, dafür auch nicht mehr mit unvorstellbar grossen Mengen von Daten trainiert werden müssen. Oder es können neue Lernmethoden sein, die mit weniger Trainingsdaten auskommen. Zum Beispiel, indem sich die KI beim Lernen bestimmte Gesetzmässigkeiten der Mathematik oder Grammatik zu eigen macht.

Eine befriedigende Lösung ist aber noch nicht gefunden. Man kann darum gespannt sein, ob GPT-5 tatsächlich noch viel leistungsfähiger sein wird als seine Vorgänger.

Podcast Digital Podcast

Wir sind deine Korrespondenten aus der digitalen Welt. Ist ein Chip drin oder hängt es am Internet? Wir berichten wöchentlich. Smartphones, soziale Netzwerke, Computersicherheit oder Games – wir erklären und ordnen Digitalisierungs-Vorgänge ein, seit 2006

Weitere Audios und Podcasts

Rendez-vous, 29.05.2024, 12:55 Uhr

Header

Inhalt

Keine Trainings-Daten mehr Schon 2026 gehen der Künstlichen Intelligenz die Daten aus

Schon 2026 keine hochwertigen Daten mehr

Der Datenhunger lässt sich kaum stillen

Lässt sich der «Model Collapse» verhindern?

Kleinere Modelle, weniger Daten

Meistgelesene Artikel

Social Login

Willkommen zurück

Neues Passwort erstellen

Neues Passwort erstellen

Keine Nachricht erhalten?

Willkommen zurück

Technischer Fehler

Mobilnummer bestätigen

Mobilnummer ändern

E-Mail bestätigen

Keine Nachricht erhalten?

Registrieren und Anmelden

Registrieren

E-Mail bestätigen

Keine Nachricht erhalten?

Ihre Aktivierungs-E-Mail wurde versendet

E-Mail-Adresse verifiziert

Benutzerkonto

Benutzerdaten erfolgreich gespeichert

Passwort ändern

Neues Passwort erstellen

Passwort erfolgreich gespeichert

Ein neues Passwort erstellen

Neues Passwort erstellen

Keine Nachricht erhalten?

Account deaktivieren

Account deaktiviert

Inhalt

Schon 2026 keine hochwertigen Daten mehr

Der Datenhunger lässt sich kaum stillen

Lässt sich der «Model Collapse» verhindern?

Kleinere Modelle, weniger Daten

Meistgelesene Artikel

Social Login

Willkommen zurück

Anmelden und Registrieren

Anmelden

Neues Passwort erstellen

Neues Passwort erstellen

Keine Nachricht erhalten?

Willkommen zurück

Technischer Fehler

Mobilnummer bestätigen

Mobilnummer ändern

E-Mail bestätigen

Keine Nachricht erhalten?

Registrieren und Anmelden

Registrieren

E-Mail bestätigen

Keine Nachricht erhalten?

Ihre Aktivierungs-E-Mail wurde versendet

E-Mail-Adresse verifiziert

Benutzerkonto

Benutzerdaten erfolgreich gespeichert

Passwort ändern

Neues Passwort erstellen

Passwort erfolgreich gespeichert

Ein neues Passwort erstellen

Neues Passwort erstellen

Keine Nachricht erhalten?

Account deaktivieren

Account deaktiviert

Suche

Hauptnavigation