Vor sechs Jahren siegte bei der Bilderkennung erstmals ein Computer über einen Menschen – in einem Wettbewerb, in dem es darum ging, wie gut selbstfahrende Autos Verkehrszeichen erkennen können.
Ein Mensch erkennt ein Verkehrsschild in knapp 99 von 100 Fällen richtig. Damit war er Computern lange haushoch überlegen. Doch die Maschinen holten auf. Bei dem Wettbewerb 2011 machte der Computer nur noch halb so viele Fehler wie der Mensch.
Übermenschlich gutes Resultat
Es war der Sieg von Jürgen Schmidhuber, Leiter des Schweizer Labors für künstliche Intelligenz IDSIA im Tessin. Sein Team hatte das erfolgreiche Computerprogramm entwickelt.
Es bedeutet einen Meilenstein in der Geschichte künstlicher neuronaler Netzwerke, von Computern, die ähnlich aufgebaut sind wie das menschliche Gehirn und so sehen lernen.
Aber sehen sie wirklich schon besser als der Mensch?
«Jein», lautet die Antwort von Sabine Süsstrunk, Professorin für Informatik und Kommunikationsswissenschaft an der EPFL in Lausanne. «Wenn das System darauf trainiert ist, eine Giraffe zu erkennen, wird es die Giraffe mit grösserer Wahrscheinlichkeit erkennen als der Mensch. Bei solchen ganz einfachen Aufgaben sind Computer also nicht unbedingt besser, aber zuverlässiger.»
Das liegt nicht etwa an unserem schlechten Sehvermögen, sondern an der Ablenkung. Wenn wir dazu aufgefordert werden, Giraffen in einem Video zu zählen, zählen wir konzentriert Giraffen. Einen Elefanten, der durchs Bild trampeln, übersehen wir dann leicht. Ein neuronales Netzwerk speichert mit Sicherheit auch diese Information ab.
Computer lernen lernen
Künstliche neuronale Netzwerke haben ihr Vorbild im menschlichen Gehirn. Dort sind Millionen von Nervenzellen in einer netzwerkartigen Struktur miteinander verbunden. Diese Struktur wird beim so genannten Deep-Learning-Verfahren im Computer nachgebaut.
«1965 entstand das erste lernende System, das man heute als Deep-Learning-System bezeichnen würde», sagt Künstliche-Intelligenz-Forscher Jürgen Schmidhuber. Und wie diese Computer lernten, hatte entscheidenden Einfluss darauf, wie sie sehen lernten.
Zwei Entwicklungen waren dafür zentral. Zum einen brauchte es schnelle Rechner. 1965 war man davon noch weit entfernt. In der Erforschung künstlicher neuronaler Netzwerke passierte über Jahrzehnte recht wenig.
Vor sieben Jahren kam die Rettung – aus der Gamer-Szene.
Revolution der Grafikkarten und Mobiltelefone
Weil Gamer schnelle Computer brauchen, kam aus dieser Ecke eine wichtige Erfindung: der Grafikprozessor. Diese enorm schnellen Prozessoren bedeuteten für das Training neuronaler Netzwerke einen Quantensprung.
Die zweite zentrale Entwicklung war das Mobiltelefon mit eingebauter Kamera. Innerhalb weniger Jahre entstanden riesige Mengen an Fotos und Videos. Allein auf Facebook werden heute rund 300 Millionen Bilder hochgeladen – und das jeden Tag.
Computer trainieren mit Facebook-Fotos
Für die Forscher ist das der ideale Trainingskorpus, um den Computern das Sehen beizubringen, denn es gilt: Je mehr Fotos einer Giraffe ein künstliches neuronales Netzwerk sieht, desto besser erkennt es eine Giraffe.
Die künstlichen neuronalen Netzwerke machen seit ein paar wenigen Jahren grosse Fortschritte beim Sehen lernen. In bestimmten Bereichen sind sie uns Menschen bereits überlegen. «Vor allem bei repetitiver Arbeit, da ist der Mensch eher schlecht», so Sabine Süsstrunk.
Dass ein Auto weh tut, sieht man nicht
Doch so richtig verstehen die Forscher noch nicht, warum die neuronalen Netzwerke so gut funktionieren. Das macht es vorerst auch schwierig, sie zu verbessern. Ihnen zum Beispiel beizubringen, was sie für Schlüsse aus Bildern ableiten sollen.
Wenn beispielsweise ein Auto in hoher Geschwindigkeit auf uns zukommt, wissen wir sofort, dass wir zur Seite springen müssen. «Ein neuronales Netzwerk würde vielleicht nicht die gleiche Information weitergeben», so Sabine Süsstrunk. «Zwar kennt es Bilder von Autos, aber es weiss nicht, was dieses Objekt tun kann.»
Einem Computer fehlt das Alltagswissen, dass der Zusammenstoss mit einem Objekt schmerzhaft ist und gefährlich sein kann. Auch das muss ihm erst beigebracht werden.
Der Führerschein ist noch nicht bestanden
Fit für die Strasse sind die künstlichen neuronalen Netzwerke noch nicht. Immerhin können sie Schilder lesen, diesen Teil der Theorieprüfung haben sie bestanden. Auch Aufgaben wie Einparken lösen sie schon mit Bravour. Als nächstes müssten sie lernen, auch mit unvorhersehbaren Situationen umzugehen.
Wie lange es also noch dauern wird, bis künstliche neuronale Netzwerke tatsächlich den Führerschein bekommen – und ob überhaupt – das ist noch offen.