Die Idee ist verführerisch: Wir füttern ein System künstlicher, generativer Intelligenz mit allem, was Katzen auf dem Planeten so von sich geben, verknüpfen das mit Verhaltensdaten, und schwupp wissen wir endlich, ob die Whiskas-Werbung hält, was sie verspricht.
Seit das Thema KI in den Nibelungen der Allgemeinheit aufgeschlagen ist, übertreffen sich Experten mit prickelnden Prognosen darüber, was uns diese Technik in Zukunft ermöglichen wird.
Das Sprechen mit Tieren ist nur eine von vielen Verheissungen. Für KI-Experte Guido Berger indes ist die Erfüllung diesbezüglicher Erwartungen an mit Aufnahmen tierischer Laute trainierte Machine-Learning-Modelle nicht einfach bloss übertrieben, sondern schlicht unmöglich. Und die Gründe sind vielfältig.
«Da wäre zunächst die fehlende Datenbasis», sagt Berger. Denn auch wenn die Methode in der Studie aus Michigan, bei der ein Modell für die menschliche Stimmerkennung mit Hundedaten ergänzt wurde, ermutigende Resultate zeitigte, wird das kaum ausreichen, um ein Model tatsächlich mit den benötigten Referenzdaten auszustatten. «Hierfür an weitere wertvolle Daten heranzukommen, ist schwierig», sagt Berger. Die fehlenden Daten sind aber noch das kleinste Problem.
Sprache erzeugen, ist nicht gleich Sprache verstehen
Weit determinierender wirkt die Funktionsweise von Sprachmodellen wie ChatGPT. Das Modell kann ja nicht wirklich Italienisch oder Chinesisch. Es errechnet lediglich auf Basis von Hunderten Milliarden von Worten, für welches Wort die Wahrscheinlichkeit am grössten ist, dass es in einem Satz dem vorangegangenen folgt.
«Das hat rein gar nichts mit Verstehen zu tun», sagt Berger, «diese Sprachmodelle sind nicht mehr als stochastische Papageien». Oder einfacher: Das Modelle kann zwar plausibel klingende Sprache erzeugen, was aber eben nicht das gleiche ist wie Verstehen. «Was die Laute bedeuten, was im Gehirn der Katze passiert, wenn sie diese Laute hört oder von sich gibt, davon hat KI keinen blassen Schimmer und wird es auch nie haben», stutzt Berger die Dolittle-Träume zurecht.
Selbst wenn wir dereinst Maschinen am Start hätten, die tierische Kommunikationsdaten mit korrespondierenden Verhaltensdaten in riesigen Mengen verarbeiten könnten, stünde dem Kaffeekränzchen mit Hund und Katze noch ganz grundsätzlich sprachspezifische Barrieren im Weg.
Einander verstehen, hat viel mit Bewusstsein zu tun
Verständigung ist weit mehr als der Austausch sprachlicher Äusserungen. Tiere wie Menschen kommunizieren durch eine Kombination von Vokalisationen, Gesten, Gerüchen und anderen non-verbalen Hinweisen. Einem ausschliesslich mit Hunde-Lauten trainierten Modell fehlt laut Berger schlicht die Datengrundlage, um andere Kommunikationsformen zu integrieren.
Was aber die Verheissung artübergreifender Verständigung endgültig zur Utopie verdampft, ist die Tatsache, dass Verständigung über die Anwendung von Vokalisationen, Gesten und Gerüchen erst in einen vermittelbaren Sinn münden, wenn sie mit körperlichem Weltempfinden verknüpft werden kann. «Ohne die Fähigkeit, Kontext aus der realen Welt beizuziehen», erklärt Berger, «also ohne eigene sensorische Erfahrung oder Interaktion mit der physischen Welt einer Katze, ohne diese Fähigkeit bleibt ihr Miauen ohne präzise Bedeutung».
Sollte Ihnen also demnächst Ihre Katze etwas miauen, wird Ihnen KI keine Hilfe sein. Sie werden wie bisher nicht einfach zurückmiauen können.