Zum Inhalt springen

Header

Zur Übersicht von Play SRF Audio-Übersicht

KI-Sprachmodelle im Vergleich Chatbot-Duell: ChatGPT landet nur im Mittelfeld

Viele KI-Chatbots stolpern über Schweizer Fragen und halluzinieren ihre Antworten. Sogar der Platzhirsch ChatGPT kann nicht überzeugen.

Was bekommt man in einem Schweizer Restaurant, wenn man eine «Stange» bestellt? Zwei der getesteten KI-Chatbots behaupten, eine Stange sei ein frisches, langes Brot, das man nach Belieben belegen kann – statt eines Biers.

Solche erfundenen Antworten – sogenannte Halluzinationen – traten im Test der Fachhochschule Nordwestschweiz FHNW häufig auf. Die Fachhochschule testete für «Kassensturz» zehn weitverbreitete Chatbots – immer die kostenlose Version – auf ihre Praxistauglichkeit. Die Chatbots mussten über 300 Fragen beantworten aus den Kategorien Alltag, Wissen, Recht und Gesundheit. Ein Fachgremium analysierte anschliessend die Resultate.

So haben die Chatbots abgeschnitten

Schweizer Chatbot überzeugt nicht

Vor allem bei Fragen mit Schweiz-Bezug stolpern mehrere Chatbots, sagt Simon Felix, Experte für künstliche Intelligenz an der FHNW. Entweder erfinden sie Antworten – oder sie beantworten die Fragen mit Fokus auf Deutschland.

So wurde getestet

Box aufklappen Box zuklappen

  • Fragen: Die Chatbots beantworteten mehr als 300 Fragen – unter anderem aus den Kategorien Alltag, Wissen, Recht und Gesundheit. 20 Prozent der Fragen hatten einen Schweiz-Bezug.
  • Turniermodus: Jeweils zwei anonymisierte Chatbots traten gegeneinander an. 40 Fachexpertinnen und -experten sowie Mitarbeitende der Fachhochschule Nordwestschweiz bewerteten, welche Antwort besser war – oder ob beide gleichwertig ausfielen. Daraus ergab sich eine belastbare Rangliste.
  • Bewertungskriterien: Bei Fragen ohne eindeutig richtige oder falsche Antwort achteten die Testpersonen unter anderem auf Struktur, Umfang, Sprache und Nachvollziehbarkeit der Antworten.
  • Nicht bewertet: Die Faktoren Datenschutz, Antwort-Geschwindigkeit und Bildgenerierung flossen nicht in die Bewertung ein
  • Zeitraum: Die Chatbots wurden im Zeitraum vom 22. Oktober 2025 bis zum 13. November 2025 automatisiert aus dem Netzwerk der FHNW angefragt. Später veröffentlichte Modelle konnten nicht berücksichtigt werden. Die Gratis-Versionen der Chatbots wurden nach Möglichkeit ohne Anmeldung und mit ihren Standardeinstellungen getestet.

Am schlechtesten schneidet der Chatbot Lumo des Schweizer Unternehmens Proton ab. Beim Datenschutz ist das Modell zwar vorbildlich, doch bei der Antwortqualität bleibt es hinter der Konkurrenz zurück. «Teilweise liefert Lumo Antworten mit nur drei Wörtern – oder sehr lange oder erfundene Antworten», sagt Simon Felix. Ebenfalls «ungenügend»: Der chinesische Chatbot Deepseek und das Modell von Meta, dem Konzern hinter Facebook, Instagram und Whatsapp.

ChatGPT trotz hoher Nutzung nur Mittelmass

Die Zahl der Nutzenden dieser Sprachmodelle wächst. Ganz vorne: ChatGPT. Laut Hersteller Open AI interagieren wöchentlich rund 800 Millionen Nutzerkonten mindestens einmal mit ChatGPT.

Bei der Analyse der Antworten schneidet ChatGPT jedoch nur mittelmässig ab. «Das Produkt liefert keine schlechten, aber auch keine richtig guten Antworten», sagt der KI-Experte. Auch bei Schweizer Fragen zeigt das Modell Schwächen.

Claude mit den brauchbarsten Antworten

Am besten schneidet der Chatbot Claude des Unternehmens Anthropic ab. Er liefert im Test die brauchbarsten Antworten. «Dieser Chatbot kommt schnell auf den Punkt und liefert prägnante Antworten, ohne Wichtiges auszulassen», sagt Felix. Anthropic wurde von ehemaligen Forschern von Open AI gegründet.

Ebenfalls «gut» im Vergleich sind Copilot von Microsoft und Gemini von Google. Bemerkenswert: Copilot basiert auf demselben technischen Sprachmodell wie ChatGPT – liefert aber bessere Antworten. «Wir führen das darauf zurück, dass Microsoft bessere Richtlinien verfasst und zusätzlich mehr Rechenleistung zur Verfügung stellt – und dadurch bessere Antworten generiert», sagt Felix. Das zeigt, wie stark die Anbieter ihre Modelle prägen.

Vorsicht bei sensiblen Themen

Beim Umgang mit KI-Chatbots sei Vorsicht geboten – vor allem bei sensiblen Themen. Sie eignen sich nur für Fragen, bei denen falsche Antworten keine gravierenden Folgen haben. «Bei medizinischen Auskünften, psychischer Gesundheit oder Rechtsfragen kann eine falsche Antwort fatal sein», warnt der Experte.

Zum Download

Ebenso wichtig ist der sorgsame Umgang mit Daten. Private oder vertrauliche Informationen gehören nicht in Chatbots. Interne Zahlen, sensible Namen oder geheime Dokumente sollten unkenntlich gemacht – oder gar nicht erst eingegeben werden.

Stellungnahmen

Box aufklappen Box zuklappen

Das Unternehmen Proton, Entwickler des Chatbots Lumo, erklärt gegenüber «Kassensturz»:

«Lumo ist seit weniger als fünf Monaten auf dem Markt, daher hatten wir im Vergleich zu US- und chinesischen Unternehmen weniger Zeit, die Leistung feinzujustieren. Dieses Finetuning ist entscheidend für die Gesamtperformance (weshalb US- und chinesische Anbieter versuchen, so schnell wie möglich möglichst viele Nutzer zu gewinnen). Seit der ersten Lumo-Veröffentlichung im Sommer sind ungefähr alle zwei Monate grosse Updates erschienen. Die kommenden Modell- und Websuche-Verbesserungen werden den Rückstand weiter verringern und gleichzeitig den entscheidend wichtigen Datenschutz bieten, der amerikanischen und chinesischen Diensten fehlt.»

Die Unternehmen DeepSeek und Meta haben auf die Anfrage nicht reagiert.

Tagesschau, 16.12.25, 19:30 Uhr

Meistgelesene Artikel