Was bekommt man in einem Schweizer Restaurant, wenn man eine «Stange» bestellt? Zwei der getesteten KI-Chatbots behaupten, eine Stange sei ein frisches, langes Brot, das man nach Belieben belegen kann – statt eines Biers.
Solche erfundenen Antworten – sogenannte Halluzinationen – traten im Test der Fachhochschule Nordwestschweiz FHNW häufig auf. Die Fachhochschule testete für «Kassensturz» zehn weitverbreitete Chatbots – immer die kostenlose Version – auf ihre Praxistauglichkeit. Die Chatbots mussten über 300 Fragen beantworten aus den Kategorien Alltag, Wissen, Recht und Gesundheit. Ein Fachgremium analysierte anschliessend die Resultate.
So haben die Chatbots abgeschnitten
-
Bild 1 von 10. Bildquelle: SRF.
-
Bild 2 von 10. Bildquelle: SRF.
-
Bild 3 von 10. Bildquelle: SRF.
-
Bild 4 von 10. Bildquelle: SRF.
-
Bild 5 von 10. Bildquelle: SRF.
-
Bild 6 von 10. Bildquelle: SRF.
-
Bild 7 von 10. Bildquelle: SRF.
-
Bild 8 von 10. Bildquelle: SRF.
-
Bild 9 von 10. Bildquelle: SRF.
-
Bild 10 von 10. Bildquelle: SRF.
Schweizer Chatbot überzeugt nicht
Vor allem bei Fragen mit Schweiz-Bezug stolpern mehrere Chatbots, sagt Simon Felix, Experte für künstliche Intelligenz an der FHNW. Entweder erfinden sie Antworten – oder sie beantworten die Fragen mit Fokus auf Deutschland.
Am schlechtesten schneidet der Chatbot Lumo des Schweizer Unternehmens Proton ab. Beim Datenschutz ist das Modell zwar vorbildlich, doch bei der Antwortqualität bleibt es hinter der Konkurrenz zurück. «Teilweise liefert Lumo Antworten mit nur drei Wörtern – oder sehr lange oder erfundene Antworten», sagt Simon Felix. Ebenfalls «ungenügend»: Der chinesische Chatbot Deepseek und das Modell von Meta, dem Konzern hinter Facebook, Instagram und Whatsapp.
ChatGPT trotz hoher Nutzung nur Mittelmass
Die Zahl der Nutzenden dieser Sprachmodelle wächst. Ganz vorne: ChatGPT. Laut Hersteller Open AI interagieren wöchentlich rund 800 Millionen Nutzerkonten mindestens einmal mit ChatGPT.
Bei der Analyse der Antworten schneidet ChatGPT jedoch nur mittelmässig ab. «Das Produkt liefert keine schlechten, aber auch keine richtig guten Antworten», sagt der KI-Experte. Auch bei Schweizer Fragen zeigt das Modell Schwächen.
Claude mit den brauchbarsten Antworten
Am besten schneidet der Chatbot Claude des Unternehmens Anthropic ab. Er liefert im Test die brauchbarsten Antworten. «Dieser Chatbot kommt schnell auf den Punkt und liefert prägnante Antworten, ohne Wichtiges auszulassen», sagt Felix. Anthropic wurde von ehemaligen Forschern von Open AI gegründet.
Ebenfalls «gut» im Vergleich sind Copilot von Microsoft und Gemini von Google. Bemerkenswert: Copilot basiert auf demselben technischen Sprachmodell wie ChatGPT – liefert aber bessere Antworten. «Wir führen das darauf zurück, dass Microsoft bessere Richtlinien verfasst und zusätzlich mehr Rechenleistung zur Verfügung stellt – und dadurch bessere Antworten generiert», sagt Felix. Das zeigt, wie stark die Anbieter ihre Modelle prägen.
Vorsicht bei sensiblen Themen
Beim Umgang mit KI-Chatbots sei Vorsicht geboten – vor allem bei sensiblen Themen. Sie eignen sich nur für Fragen, bei denen falsche Antworten keine gravierenden Folgen haben. «Bei medizinischen Auskünften, psychischer Gesundheit oder Rechtsfragen kann eine falsche Antwort fatal sein», warnt der Experte.
Zum Download
Ebenso wichtig ist der sorgsame Umgang mit Daten. Private oder vertrauliche Informationen gehören nicht in Chatbots. Interne Zahlen, sensible Namen oder geheime Dokumente sollten unkenntlich gemacht – oder gar nicht erst eingegeben werden.