EMO, el nuevo sistema de inteligencia artificial de Alibaba, crea vídeos realistas en los que se habla y canta a partir de fotos

Illustrate an image that represents an advanced AI system, named EMO, in the style of digital and friendly animation, such as commonly found in late 20th century children's films. Show the AI converting audio into video, animating a portrait photo to realistically mimic talking and singing. To depict this, use elements such as fluctuating sound waves passing into a hi-tech device that has a calm portrait emerging from the other side showing various expressions. The portrait looks incredibly real and is talking in sync with the sound waves. Note that the aspect ratio should be 3:2 and the overall mood of the image should be positive and light.

El Instituto de Computación Inteligente de Alibaba ha desarrollado un sistema de inteligencia artificial llamado EMO capaz de animar una sola foto de retrato y generar vídeos realistas en los que se habla o canta. El sistema utiliza un método de síntesis directa de audio a vídeo, sin necesidad de modelos 3D ni puntos de referencia faciales. EMO emplea un modelo de difusión y se ha entrenado con un conjunto de datos de más de 250 horas de vídeos de cabezas parlantes. Supera a los métodos existentes en cuanto a calidad de vídeo, preservación de la identidad y expresividad. EMO también puede generar vídeos de cantantes con formas de boca y expresiones faciales adecuadas. El sistema puede producir vídeos de duración arbitraria en función de la duración del audio de entrada. Sin embargo, siguen existiendo dudas éticas sobre el posible uso indebido de esta tecnología. Los investigadores planean explorar métodos para detectar vídeos sintéticos.

Artículo completo

Deja una respuesta