Alibabas neues KI-System “EMO” erstellt realistische sprechende und singende Videos aus Fotos

Illustrate an image that represents an advanced AI system, named EMO, in the style of digital and friendly animation, such as commonly found in late 20th century children's films. Show the AI converting audio into video, animating a portrait photo to realistically mimic talking and singing. To depict this, use elements such as fluctuating sound waves passing into a hi-tech device that has a calm portrait emerging from the other side showing various expressions. The portrait looks incredibly real and is talking in sync with the sound waves. Note that the aspect ratio should be 3:2 and the overall mood of the image should be positive and light.

Das Institute for Intelligent Computing von Alibaba hat ein KI-System namens EMO entwickelt, das ein einzelnes Porträtfoto animieren und realistische Sprech- oder Gesangsvideos erzeugen kann. Das System verwendet eine direkte Audio-zu-Video-Synthese, die 3D-Modelle oder Gesichtsmerkmale überflüssig macht. EMO verwendet ein Diffusionsmodell und wurde mit einem Datensatz von über 250 Stunden sprechender Kopfvideos trainiert. Es übertrifft bestehende Methoden in Bezug auf Videoqualität, Identitätserhalt und Ausdruckskraft. EMO kann auch Gesangsvideos mit passenden Mundformen und Gesichtsausdrücken erzeugen. Das System kann Videos von beliebiger Dauer auf der Grundlage der Länge des eingegebenen Tons erzeugen. Es bestehen jedoch weiterhin ethische Bedenken hinsichtlich des möglichen Missbrauchs dieser Technologie. Die Forscher planen, Methoden zur Erkennung synthetischer Videos zu untersuchen.

Ganzer Artikel

Einen Kommentar hinterlassen