2024.03.05. 06:00
Egyetlen állóképből elképesztő videót készít a mesterséges intelligencia
Bárki, híres ember, egy ismerősünk, netán Mona Lisa fényképe is megszólalhat, és azt mondja el vagy énekli, amit csak akarunk. Az MI segítségével.
Forrás: EMO
Az Alibaba Intelligens Számítástechnikai Intézetének kutatói kifejlesztettek egy új mesterséges intelligencia rendszert, az EMO-t, ami az Emote Portrait Alive rövidítése. A program egyetlen portréfotóból képes élethű videót készíteni hiteles, kifejező arcmozgásokkal, amelyek szorosan illeszkednek a hangsáv árnyalataihoz.
Érdemes megnézni az alábbi videót, hogy mire képes az EMO:
Először Audrey Hepburn egy fekete-fehér fotójával énekeltetnek el egy dalt,
![](https://cdnkpi.mediaworks.hu/2024/03/a8s6oYieuqeSOW0DzagbSVfTgnNPRhNEUXQ9dxd7IOk/fit/1197/404/no/1/aHR0cHM6Ly9jbXNjZG4uYXBwLmNvbnRlbnQucHJpdmF0ZS9jb250ZW50LzliMDQ4M2NkYTk4NjRlOGY4YjY0M2ViZTA4MTkzYTkx.jpg)
azután pedig Hepburn beszélni kezd, interjút ad.
![](https://cdnkpi.mediaworks.hu/2024/03/sdYTc1_TgRpTADnhfpWlawtJDIVr6IhIG56l4KfTEdI/fit/557/250/no/1/aHR0cHM6Ly9jbXNjZG4uYXBwLmNvbnRlbnQucHJpdmF0ZS9jb250ZW50Lzc0MjhkNGEyZmRkOTQwMzBiYjI1NDlmZjAyNjFiM2Uz.jpg)
Voltak már hasonló próbálkozások, de nem ilyen minőségben: az EMO-val szinte tökéletes a szájmozgás, a mimika.
Ez a rendszer a diffúziós modellként ismert mesterséges intelligencia technikát alkalmazza valósághű szintetikus képek előállítására. A kutatók a modellt egy több mint 250 órányi, „beszélő fejű” videókból álló adathalmazon képezték ki, amelyet beszédekből, filmekből, tévéműsorokból és énekelőadásokból gyűjtöttek össze.
![](https://cdnkpi.mediaworks.hu/2024/03/moiynvKP_pMq6lT-DCvFbNYrQuMtsFAzm6zJkhchqS4/fit/1200/848/no/1/aHR0cHM6Ly9jbXNjZG4uYXBwLmNvbnRlbnQucHJpdmF0ZS9jb250ZW50LzE3Y2ZiOGYzMDgyNTQ4M2Y4OWM3MmFjN2Y5Y2Q3MGVh.jpg)
A kifejlesztett EMO közvetlenül a bemeneti hangból állít elő képeket, ellentétben a hagyományos módszerekkel, amelyek 3D arcmodelleken és kontúrszintézisen alapulnak az arcmozgások utánzására. Ez lehetővé teszi természetes hatású képek készítését az énekléssel és beszéddel kapcsolatos finommozdulatok és egyedi szokások rögzítésével.
![](https://cdnkpi.mediaworks.hu/2024/03/6xYXVzC5OpSDBiD7js1Eg65tYxLpTG6OhvW_VmmRhWg/fit/1049/285/no/1/aHR0cHM6Ly9jbXNjZG4uYXBwLmNvbnRlbnQucHJpdmF0ZS9jb250ZW50Lzg5NzgwZTg1YjhmMTQwZmQ5YTQ2ZDhiMzIxZGI5N2Fl.png)
Egy énekes videó kimenetéhez csak egy fotó és egy tetszőleges hang szükséges.
![](https://cdnkpi.mediaworks.hu/2024/03/QAjT9Us8CKC6SVshjZgBWQbXXjMATWorw_DZbCNvRjE/fit/954/525/no/1/aHR0cHM6Ly9jbXNjZG4uYXBwLmNvbnRlbnQucHJpdmF0ZS9jb250ZW50L2U3ZGQ3NzNlMTcyMTRhZjc5NmI2MWY3ZTMxOTk1NGRj.jpg)
Nem jelentenek problémát azok a dalok sem, amelyek előadásakor gyorsan, hevesen mozog a száj, mint például a rap esetén.
![](https://cdnkpi.mediaworks.hu/2024/03/YAtWBzB-upFF7_jTdCfcYnuWeuUGkbdMG9giJulbmwo/fit/1083/298/no/1/aHR0cHM6Ly9jbXNjZG4uYXBwLmNvbnRlbnQucHJpdmF0ZS9jb250ZW50LzY1ZGZjNDcyNWE5YjRhNWY4OWQxZDdjNjk2ZTZlNzk4.jpg)
Lehetőség van társalgó, előadó videók generálására is.
Az EMO jelentősen felülmúlja a korábbi módszereket a videó minőségében, identitásmegőrzésében és kifejezőkészségében: életre keltheti Mona Lisát, egy japán animét, vagy bármilyen grafikát.
Az EMO-val a személyre szabott videótartalom létrehozható tehát csupán egy fényképből és egy hangklipből. Mindazonáltal indokoltak az etikai aggályok az ilyen technológiával való visszaélések miatt, mert az alanyok beleegyezése nélkül elkészíthetőek. A kutatók ezért most azon dolgoznak, hogy a szintetikus videókat felismerő technológiát készítsenek.
Digitália
- Állandó bázisnak is alkalmas barlangot fedeztek fel a Holdon
- Kihirdették a pénzdíjas Miss Mesterséges Intelligencia szépségverseny győzteseit
- A növénymagok még jobban szeretnek utazni a madarakkal, mint a halak ikrái
- Most könnyen megtudhatjuk, van-e vadmacskagén a cicánkban
- Gyermekkórház vált zsarolóvírus áldozatává