Wer die Leistung verschiedener KI-Systeme vergleichen will, sucht vergeblich nach einer standardisierten Methode. Das mache es «äusserst schwierig, die Grenzen und Risiken verschiedener KI-Modelle systematisch zu vergleichen», gab Nestor Maslej diese Woche der «New York Times» zu Protokoll.
Maslej ist Chefredaktor des «AI Index», eines jährlichen Berichts der Universität Stanford, der einen umfassenden Überblick über den weltweiten Stand der künstlichen Intelligenz gibt. Eine der wichtigsten Erkenntnisse der diesjährigen Ausgabe: Das Fehlen einer zuverlässigen Mess- und Vergleichsmethode sei eine der grössten Herausforderungen für die KI-Forschung.
Die bekanntesten Benchmarks sind nicht die besten
Um die Leistungsfähigkeit ihrer Systeme zu bewerben, berufen sich KI-Entwickler gerne auf sogenannte Benchmark-Zahlen – auf Ergebnisse von Tests, die messen sollen, wie gut eine KI bei der Bewältigung einer Aufgabe abschneidet. Erreicht sie etwa bei der Bilderkennung einen Wert von 50 Prozent, hat sie die Hälfte der Bilder richtig erkannt.
Allerdings: Vorgaben, welche Benchmarks ein System unter welchen Bedingungen meistern muss, gibt es nicht. Ebenso wenig eine Benchmark, auf die sich alle einigen können. «Am Ende gibt es immer drei, vier dieser Benchmarks, die alle kennen und brauchen», sagt Florian Tramèr, der an der ETH Zürich zu künstlicher Intelligenz forscht. Allerdings nicht, weil es die besten seien, sondern bloss, weil sie alle kennen.
Die meisten Tests werden von KI-Entwicklerinnen selber gemacht. Sie können sich herauspicken, welche Zahlen sie veröffentlichen und welche nicht. Viele Expertinnen und Experten stellen deshalb die Frage, wie zuverlässig solche Benchmarks sind.
Benchmarks beschäftigen sich kaum mit möglichen Gefahren
Generative KI wie etwa ChatGPT macht den Vergleich noch einmal schwieriger. Denn die Leistung eines solchen Systems hängt auch davon ab, wie ein Nutzer oder eine Nutzerin die KI bedient, mit welcher Eingabe sie zur Antwort aufgefordert wird. «Beim gleichen Benchmark kann man von 10 Prozent korrekten Antworten auf bis zu 90 Prozent kommen, nur indem man die Frage ein bisschen anders stellt», so Floran Tramèr.
Und die verschiedenen Einsatzmöglichkeiten generativer KI machen den Vergleich zusätzlich schwer: ChatGPT zum Beispiel kann nicht nur Texte schreiben, sondern auch Auskunft geben oder beim Brainstorming helfen. Kein Benchmark-Test schafft es, all die Leistungen vollständig abzubilden.
Und kein Benchmark-Test sagt etwas darüber aus, wie sich der Umgang mit einem KI-System ganz subjektiv anfühlt – macht es Spass, damit zu arbeiten? Erledigt es die Aufgaben, die mir persönlich wichtig sind, besser als eine andere KI? Ebenso wenig werden die Gefahren eines Systems erfasst: Reproduziert es vielleicht Vorurteile, die es eines unausgewogenen Sets von Trainingsdaten wegen gelernt hat?
Gefühle sind wichtiger als Zahlen
Für Florian Tramèr von der ETH Zürich sind Benchmark-Zahlen deshalb zwar interessant – aber bei der Entscheidung, welche KI wo zum Einsatz kommt, verlässt er sich lieber auf das Gefühl. Fachleute sprechen dabei gerne auch von «Vibes», den Schwingungen eines Systems.
Als Forscher schaue ich mir diese Benchmark-Zahlen zwar an, aber am Ende muss man immer eine Weile selber mit diesen Systemen herumspielen, um ein Gefühl dafür zu bekommen, welches für einen das beste ist.
Eine erstaunlich feinstoffliche Kategorie für einen Gegenstand wie die künstliche Intelligenz. Aber für Experten wie Laien immer noch die verlässlichste Methode, den Wert einer KI für das eigene Arbeiten zu bestimmen.