Alibaba’nın yeni yapay zeka sistemi ‘EMO’ fotoğraflardan gerçekçi konuşma ve şarkı söyleme videoları oluşturuyor

Illustrate an image that represents an advanced AI system, named EMO, in the style of digital and friendly animation, such as commonly found in late 20th century children's films. Show the AI converting audio into video, animating a portrait photo to realistically mimic talking and singing. To depict this, use elements such as fluctuating sound waves passing into a hi-tech device that has a calm portrait emerging from the other side showing various expressions. The portrait looks incredibly real and is talking in sync with the sound waves. Note that the aspect ratio should be 3:2 and the overall mood of the image should be positive and light.

Alibaba Akıllı Hesaplama Enstitüsü, tek bir portre fotoğrafını canlandırabilen ve gerçekçi konuşan veya şarkı söyleyen videolar oluşturabilen EMO adlı bir yapay zeka sistemi geliştirdi. Sistem, 3D modellere veya yüz işaretlerine olan ihtiyacı atlayarak doğrudan ses-video sentezi yaklaşımını kullanıyor. EMO bir difüzyon modeli kullanır ve 250 saatten fazla konuşan kafa videosundan oluşan bir veri kümesi üzerinde eğitilmiştir. Video kalitesi, kimliğin korunması ve ifade gücü açısından mevcut yöntemlerden daha iyi performans gösteriyor. EMO ayrıca uygun ağız şekilleri ve yüz ifadeleriyle şarkı söyleyen videolar da üretebiliyor. Sistem, giriş sesinin uzunluğuna bağlı olarak keyfi uzunlukta videolar üretebilir. Bununla birlikte, bu teknolojinin potansiyel kötüye kullanımına ilişkin etik kaygılar devam etmektedir. Araştırmacılar sentetik videoları tespit etmek için yöntemler keşfetmeyi planlıyorlar.

Makalenin tamamı

Bir yanıt yazın