Sistem AI baru Alibaba ‘EMO’ menciptakan video berbicara dan bernyanyi yang realistis dari foto

Illustrate an image that represents an advanced AI system, named EMO, in the style of digital and friendly animation, such as commonly found in late 20th century children's films. Show the AI converting audio into video, animating a portrait photo to realistically mimic talking and singing. To depict this, use elements such as fluctuating sound waves passing into a hi-tech device that has a calm portrait emerging from the other side showing various expressions. The portrait looks incredibly real and is talking in sync with the sound waves. Note that the aspect ratio should be 3:2 and the overall mood of the image should be positive and light.

Institut Komputasi Cerdas Alibaba telah mengembangkan sistem AI yang disebut EMO yang dapat menghidupkan satu foto potret dan menghasilkan video berbicara atau bernyanyi yang realistis. Sistem ini menggunakan pendekatan sintesis audio-ke-video langsung, tanpa memerlukan model 3D atau penanda wajah. EMO menggunakan model difusi dan dilatih dengan kumpulan data lebih dari 250 jam video talking head. Metode ini mengungguli metode yang sudah ada dalam hal kualitas video, pelestarian identitas, dan ekspresi. EMO juga dapat menghasilkan video nyanyian dengan bentuk mulut dan ekspresi wajah yang sesuai. Sistem ini dapat menghasilkan video dengan durasi yang berubah-ubah berdasarkan panjang audio input. Namun, masih ada kekhawatiran etis terkait potensi penyalahgunaan teknologi ini. Para peneliti berencana untuk mengeksplorasi metode untuk mendeteksi video sintetis.

Artikel lengkap

Tinggalkan Balasan