Nur sechs Sekunden der Stimme einer Person sollen ausreichen um ihr Gesicht „vorherzusagen“. Forschern aus den USA soll das nun mithilfe einer KI-Anwendung gelungen sein. Die ersten Tests lieferten erstaunliche Übereinstimmungen zwischen dem realen und dem konstruierten Gesicht.

Die Forscher des Massachusetts Institute of Technology aus den USA, kurz MIT, können unter Einsatz von einer künstlichen Intelligenz das Gesicht einer Person anhand ihrer Stimme konstruieren. Dazu reicht schon eine Sprachnachricht von sechs Sekunden aus, um ein Bild des Gesichtes des Sprechers zu schaffen. Basis der Gesichts-Vorhersage ist ein neuronales Netzwerk. Dieses wurde dafür mit millionenfachen Videosequenzen, beispielsweise aus YouTube, gefüllt. Anhand dieser konnte die künstliche Intelligenz die Zusammenhänge von Sprache und Gesichtern lernen.

Bei bisherigen Tests konnte die künstliche Intelligenz insbesondere das Alter, das Geschlecht, die ethnische Herkunft und Informationen über die Gesichtsform gut ermitteln und daraufhin abbilden. Die Entwicklung dieser künstlichen Intelligenz gelang den Forschern besonders gut, weil sie bei ihrer Forschung einen anderen Ansatz gewählt haben. Vorherige Untersuchungen hatten versucht die Stimme in Kombination mit anderen Informationen in ein Bild zu verwandeln. Die Forscher des MIT hingegen entwickelten ein Netzwerk, welches lediglich aus der Stimme selbst, die notwendigen Informationen sucht.

Teilweise noch falsch konstruierte Gesichter

Hundertprozentig perfekte Ergebnisse konnte die künstliche Intelligenz bislang noch nicht liefern. Sonderfälle wie eine englisch-sprechende asiatische Person, konnte das Netzwerk nicht immer richtig abbilden. Teilweise unterlaufen auch noch Irrtümer bei Geschlecht oder Alter. Das Ganze ist vor allem dem noch etwas unvollständigen Datensatz der Videosequenzen geschuldet. Außergewöhnliche Stimmen können so nur auf einer geringen Grundlage an Video-Material erstellt werden. Dies führt folglich zu Abweichungen. Auch die Haarfarbe kann aufgrund dessen nicht immer eindeutig wiedergegeben werden. Die Forscher sind sich zudem in diesem Punkt noch unschlüssig, ob es einen direkten Zusammenhang der Farbe der Haare und der Stimme gibt. Dennoch liegt die Ähnlichkeit und Übereinstimmung der tatsächlichen und konstruierten Gesichter deutlich über einem Zufallsniveau.

Die Frage, ob diese Erfindung wirklich von Nutzen und sinnvoll ist, bleibt jedem selbst überlassen. Dennoch ist das Ganze eine gute Möglichkeit auch maschinell erzeugten Stimmen ein Gesicht zu verleihen. Ebenso könnte mehr persönliche Nähe bei Telefon-Konferenzen durch passende Gesichter geschaffen werden. Auf der eigenen Projektseite der Forscher kann man die bisherigen Tests nicht nur selbst sehen, sondern natürlich auch hören. So kann man sich auch selbst von den bisherigen Ergebnissen überzeugen.