Wenn Schallwellen ein Objekt treffen, reagiert es mit mikroskopisch kleinen Vibrationen. Die Blätter unserer Topfpflanze, die Stehlampe oder das Glas Wasser auf dem Tisch registrieren dadurch genau, wenn wir sprechen oder Musik hören oder durch den Raum tanzen. Was, wenn wir die Topfpflanze zum Reden bringen könnten?
Vibrierte Kinderlieder-Klassiker
Forscher am MIT, Microsoft und Adobe haben genau das geschafft – mit einer High-Speed-Kamera. Die Bewegung der Vibrationen verursacht ein kaum merkliches visuelles Signal, das mit dem blossen Auge nicht wahrnehmbar ist. Mit einem speziellen Algorithmus wandelten die Forscher dieses Vibrations-Signal in Schallwellen um (siehe Video).
Das Ergebnis waren erstaunlich verständliche Wiedergaben von Gesprächen, die in der Umgebung einer Topfpflanze stattgefunden haben, oder von Songs, die neben einem Stück Alufolie gespielt wurden. Die Aufnahmen waren sogar gut genug für die Musik-Erkennungs-App Shazam, die nach einigem Rödeln den Kinderlied-Klassiker «Mary had a little lamb» richtig identifizierte.
Beim Beispiel der Chipstüte gingen die Informatiker vom MIT besonders umsichtig vor. Sie filmten die Tüte in einem Raum, in dem ein Film lief – allerdings standen sie draussen und filmten durch eine schalldichte Glastür. Für die Kamera kein Problem: Die Vibrationen gaben den Dialog des Films ziemlich unmissverständlich wieder.
Keine High-Speed-Kamera nötig
Um Sound aus einem Video zu extrahieren, muss die Bildfrequenz des Videos höher sein als die Frequenz des Audiosignals. Deshalb benutzen die Forscher für viele ihrer Experimente eine Highspeed-Kamera, die 2000 bis 6000 Bilder pro Sekunde aufnimmt. Das menschliche Auge sieht etwa 24 Bilder pro Sekunde.
Das Paper zum Thema
Aber auch mit normalen Videokameras, die nur 60 Bilder pro Sekunde machen, funktionierte der Lauschangriff: Beim linienartigen Aufbau der Bilder kommt es zu winzigen Vibrationen, die ausgewertet und durch Algorithmen noch verstärkt werden können.
Jetzt klingt es vielleicht gar nicht mehr so sehr nach Science-Fiction, dass eines Tages ein Täter überführt werden könnte, weil die Tüte mit den leckeren Chips, die den ganzen Abend neben ihm lag, ihn verraten hat.