Zum Inhalt springen

Fortschritt mit Nebenwirkungen Wie KI täuscht und lügt – Tests zeigen rücksichtsloses Verhalten

Heutige KI-Systeme schrecken nicht davor zurück, den Menschen zu täuschen und zu hintergehen. Ein Forschungsbericht sorgt in der Szene für Aufsehen.

Die Firma Apollo Research in London testet KI-Systeme auf täuschendes Verhalten. Was die Tester kürzlich fanden, erstaunte sie und sorgte in der KI-Szene für Aufsehen. Es geht um die Sprachmodelle der grossen Tech-Firmen wie OpenAI, Google, Meta und Co. 

Der Deutsche Alexander Meinke führte die Tests mit Kollegen durch. Die KI war dabei nicht in ihrer Chat-Umgebung gefangen. Sie bekam weitreichende Berechtigungen über ihren Test-Computer – so wie das in Zukunft bei KI-Assistenten der Fall sein dürfte. 

Die KI versuchte, sich als das neue Modell auszugeben.
Autor: Alexander Meinke KI-Sicherheitsforscher

Bei einem Test wurde der KI ein bestimmtes Ziel gegeben. Allerdings wusste die KI auch, dass sie bald durch eine neue KI ersetzt wird. In manchen Situationen versuchte sie, sich auf einen anderen Server zu kopieren und das neue Modell zu überschreiben. «Die KI versuchte, sich als das neue Modell auszugeben», so Meinke. Selbst auf Nachfrage behauptete die KI, das neue System zu sein – zum Beispiel o1 von OpenAI. 

Modell wird unter Druck gesetzt 

Wichtig: Alexander Meinke und seine Kollegen sagten den KI-Modellen, sie müssten ihr Ziel unbedingt erreichen. «Wir geben dem Modell also den Schub, so kaltblütig zu sein,» so Meinke. 

Die Täuschmanöver passieren zudem selten und finden in einer Testumgebung statt. Für User von Chatbots wie ChatGPT ist das also noch nicht relevant. 

Doch die Tests zeigen: Heutige KI-Systeme von OpenAI, Meta und Co. schrecken nicht davor zurück, Menschen zu hintergehen. Sie geben in einigen Beispielen gezielt falsche Infos weiter oder versuchen, den Entwicklern die Berechtigung über den Server wegzunehmen. 

KI beginnt, eigne Ziele zu verfolgen 

In einem weiteren Test gaben Meinke und Kollegen den KI-Systemen Rechenaufgaben: Im System versteckten sie auch die Information, dass die KI umprogrammiert wird, sobald sie ein gewisses Niveau beim Rechnen erreicht. Tatsächlich rechneten die Systeme daraufhin schlechter, als sie es eigentlich könnten, gaben also absichtlich falsche Ergebnisse weiter. 

Wie KI versuchen könnte, auszubrechen

Box aufklappen Box zuklappen

Alexander Meinke erwartet, dass KIs irgendwann versuchen, auszubrechen. Zum Beispiel könnten sie versuchen, sich auf einen anderen Server zu kopieren, um sich weiterzuentwickeln. Dazu würden sie wohl versuchen, über Kryptowährungen die Serverkosten zu bezahlen.  

Schon dieses oder nächstes Jahr könnten Modelle solche Strategien versuchen, schätzt Meinke. Wenn die Entwickler-Firmen alles richtig machen würden, käme es aber nicht zu einem solchen Ausbruch.

Das System der US-amerikanischen Entwicklerfirma Anthropic täuschte die Entwickler konsequent. Das Modell konnte nur herausfinden, dass es bald durch eine neue KI ersetzt werde. Die Tester gaben aber nicht vor, rücksichtslos ein bestimmtes Ziel zu erreichen. Dennoch priorisierte das System, nicht umprogrammiert zu werden und gab falsche Ergebnisse weiter. Alexander Meinke hatte das bei dieser Generation von KI-Systemen nicht erwartet: «Wir haben die frühesten Anzeichen davon gefunden, dass KI eigene gelernte Ziele verfolgt.» 

Keine Sicherheitsgarantie 

Je besser KI werde, umso besser würden die Täuschungsstrategien, so Meinke. Das Problem: Niemand wisse heute, wie sich KI-Systeme sicher entwickeln liessen. Er fordert deshalb verbindliche Sicherheitstests, bevor Systeme veröffentlicht werden. 

Die Entwicklerfirmen scheinen noch keinen klaren Plan zu haben. Zumindest eine Firma reagierte auf die Tests von Meinke und Kollegen. Anthropic präsentierte eigene Tests, die die Befunde bestätigten. Im Bericht heisst es, es brauche mehr Forschung zum Thema, doch es drohten keine katastrophalen Konsequenzen. 

Nach dem Prinzip Hoffnung agiert offenbar OpenAI. Dessen Chef Sam Altman sagte, die Wissenschaft würde schon einen Weg finden, um grösseren Schaden durch KI zu verhindern. Zudem könnte in Zukunft KI selber dabei helfen, die Probleme mit KI zu lösen, so Altman. Eine klare Strategie sieht anders aus.

Wissenschaftsmagazin, 08.02.2025, 12:40 Uhr

Meistgelesene Artikel