Zum Inhalt springen

KI im Test Wie gut kann künstliche Intelligenz Texte zusammenfassen?

Nach dem ersten Hype um künstliche Intelligenz befinden wir uns auf der Suche nach konkreten Tasks, bei denen KI uns tatsächlich unterstützen kann. Texte zusammenfassen könnte ein Beispiel sein. Wir haben es ausprobiert: Von kinderleicht bis lächerlich schwer – mit überraschendem Ergebnis.

So fasst ChatGPT diesen Artikel zusammen:

KI kann Texte unterschiedlicher Komplexität zusammenfassen, wobei sie bei einfachen Texten besser abschneidet als bei komplexeren. Sie zeigt jedoch überraschende Fähigkeiten, komplexe philosophische Werke zu verstehen und zusammenzufassen.
Autor: ChatGPT 3.5

Stimmt das? Lesen Sie selbst:

Einfach: News-Artikel

Kann ein Sprachmodell einen einfachen Text zusammenfassen? Wir haben es mit den gängigsten KI-Modellen getestet: ChatGPT 4 (via Microsoft Copilot), ChatGPT 3.5, Gemini und Llama 2. Wir haben ihnen einen kurzen Newsartikel gegeben und sie gebeten, den Artikel kurz zusammenzufassen.

Kurzzusammenfassungen der KIs

Box aufklappen Box zuklappen

Prompt: Fasse diesen Artikel in 1-2 Sätzen zusammen.

ChatGPT 4: Die neue elektronische Identitätskarte (E-ID) in der Schweiz wird vom Bundesamt für Polizei (Fedpol) ausgegeben und orientiert sich an den Prinzipien der selbstverwalteten Identität. Sie ähnelt einer digitalen Brieftasche und bietet Platz für weitere Ausweise wie Hochschuldiplome oder Führerscheine.

ChatGPT 3.5: Der Artikel behandelt die Einführung einer neuen staatlichen E-ID in der Schweiz, die im Gegensatz zu einem früheren Vorschlag, der von Privatunternehmen betrieben werden sollte, nun vom Bund verwaltet wird. Die neue E-ID ermöglicht eine selbstverwaltete Identität und bietet erweiterte Funktionen wie die Verwaltung verschiedener Ausweise auf dem Smartphone.

Gemini: Die neue E-ID ist staatlich kontrolliert und datenschutzfreundlich. Sie dient als digitale Brieftasche für verschiedene Ausweise und ermöglicht neue Anwendungsfälle. Der Entwicklungsprozess war offen und transparent und die neue Vorlage erntet viel Lob von ehemaligen Kritikern.

Llama 2: Die neue E-ID in der Schweiz wird eine elektronische Identitätskarte sein, die man sich online bei Behörden oder Banken ausweisen kann. Die Vorlage zur E-ID wurde vor drei Jahren abgelehnt, aber diesmal wurde sie mit 64 Prozent der Stimmen angenommen.

Das Resultat ist durchzogen. Wirklich gut machte seine Arbeit nur ChatGPT 4. In den anderen Texten fanden sich ungenaue Angaben, die sich wohl beim Paraphrasieren eingeschlichen haben. Llama 2 machte sogar handfeste Fehler. Abgesehen von Llama 2 schafften es die KIs allerdings recht gut, die wichtigsten Punkte des Artikels herauszupicken.

Schwieriger: Gebrauchsanweisung

Wie schneidet die KI ab, wenn es darum geht, aus einer Gebrauchsanweisung eine Kurzanleitung zu machen – zum Beispiel für das Entkalken einer Kaffeemaschine?

Auf den ersten Blick klingen alle Anleitungen gut. Aber schaut man näher hin, haben sich bei allen vier Modellen Fehler eingeschlichen. Nicht die «Latte Macchiato»-Taste müsste man drücken, sondern die «Milchschaum»-Taste. Nicht bis zum Rand müsste man den Wasserbehälter füllen, sondern bis zur Markierung.

Gemini liefert ungefragt «Zusatzinfos»

Box aufklappen Box zuklappen

Zeitsparende Tipps:

  • Während der Entkalkung können Sie andere Aufgaben erledigen.
  • Stellen Sie den Behälter für den Spülvorgang direkt in die Spüle.
  • Verwenden Sie einen Messbecher, um die Entkalkerlösung genau abzumessen.

Am besten abgeschnitten hat die Anleitung von ChatGPT 4, trotz mindestens zwei groben Fehlern.

Schwer: Wissenschaftliche Studie

Wirklich profitieren von KI-Zusammenfassungen könnten Studenten und Forscherinnen. Schliesslich müssen sie regelmässig lange Texte lesen, um an relevante Informationen zu kommen. Dabei geht es weniger um eine Zusammenfassung des Textes, sondern darum, Informationen zu einem bestimmten Teilaspekt in einem Paper zu finden.

Textsuche ist keine Stärke von Sprachmodellen

Box aufklappen Box zuklappen

Prompt: Sag mir, was dieses Paper zum Thema «Focal-Point» herausfindet?

ChatGPT 4: [...] Der Artikel erwähnt jedoch nicht speziell das Konzept des «Focal-Point». [...]

Gemini: [...] Der Begriff «focal point» wird in der Arbeit nicht direkt erwähnt. [...]

Tatsächlich kommt der Begriff «Focal-Point» zehn Mal im Paper vor, das erste mal bereits im ersten Absatz.

Die KI tut sich schwer bei solchen Aufgaben. Selbst die zentralen Konzepte eines wissenschaftlichen Artikels kann sie nicht finden und die Antworten auf Nachfragen bleiben vage. Zuweilen sucht die KI sogar in anderen Quellen als der eigentlichen Studie nach Antworten – ohne das zu deklarieren.

Sehr schwer: Kant, Hegel, Heidegger

Um die künstliche Intelligenz zum Schluss auf eine besonders schwere Probe zu stellen, haben wir sie Texte von Immanuel Kant, Georg Wilhelm Friedrich Hegel und Martin Heidegger zusammenfassen lassen – Texte, die als besonders schwer zugänglich gelten.

ChatGPT macht Kant verständlich

Box aufklappen Box zuklappen

«Auf welche Art und durch welche Mittel sich auch immer eine Erkenntnis auf Gegenstände beziehen mag, es ist doch diejenige, wodurch sie sich auf dieselbe unmittelbar bezieht, und worauf alles Denken als Mittel abzweckt, die Anschauung.»

Mit diesen Worten beginnt Immanuel Kants «Die transzendentale Ästhetik» aus der «Kritik der reinen Vernunft». Ein schwer zugänglicher Text, den die meisten Laien nach ein paar Sätzen wohl aus der Hand legen – ohne genau verstanden zu haben, was der Philosoph uns sagen will.

ChatGPT 3.5 fasst den Einstieg um einiges leichter verständlich zusammen und schreibt: «Kant argumentiert, dass unsere Sinneserfahrung der Ausgangspunkt für jegliches Denken und Erkennen ist. Kurz gesagt, bevor wir über etwas nachdenken können, müssen wir es zuerst sehen, hören, fühlen usw.»

Das Resultat überrascht: «Das liest sich sehr gut, ist sehr verständlich und die wichtigsten Ideen werden zusammengefasst», urteilt Yves Bossart, Moderator der SRF-Sendung Sternstunde Philosophie , über die Zusammenfassung von ChatGPT 3.5. Während die KI bei einfachen Texten Mühe hat, scheint sie die Gedankengänge der drei Geistesgrössen problemlos zu meistern.

«Intelligent» nur dank Trainingsdaten

Das hat seinen Grund: Die Trainingsdaten der grossen Sprachmodelle beinhalten viele Texte, die sich mit den Werken Kants, Hegels und Heideggers beschäftigen. Auf dieses Wissen können ChatGPT und Co. bei ihren Zusammenfassungen zurückgreifen – Hintergrundinformationen, die ihnen bei News-Artikeln oder Gebrauchsanweisungen fehlen.

Wenn für die Maschine also leicht ist, was uns schwer fällt – und umgekehrt – dann zeigt das einmal mehr: Das «I» in KI funktioniert ganz anders als die Intelligenz der Menschen.

SRF 3, 28.3.2024 15:15

Meistgelesene Artikel