Penyelidik ByteDance telah membangunkan sistem kecerdasan buatan (AI) dikenali sebagai OmniHuman, yang mampu menukar satu gambar menjadi video realistik di mana individu bercakap, menyanyi, dan bergerak secara semula jadi.
OmniHuman menghasilkan video badan penuh dengan pergerakan yang sepadan dengan ucapan, mengatasi model AI terdahulu yang hanya boleh menganimasikan wajah atau bahagian atas badan sahaja. [lihat di SINI]
Sistem ini telah dilatih menggunakan lebih daripada 18,700 jam data video manusia dengan pendekatan unik yang menggabungkan teks, audio, dan pergerakan badan, membolehkan AI itu belajar daripada set data yang lebih besar dan pelbagai.
“Penganimasian manusia secara menyeluruh telah mengalami kemajuan ketara dalam beberapa tahun kebelakangan ini,” tulis penyelidik ByteDance dalam kertas penyelidikan yang diterbitkan di arXiv.
Teknologi ini menunjukkan kemajuan ketara dalam media AI, termasuk menghasilkan video ucapan dan permainan alat muzik.
Malah dalam ujian awalnya, OmniHuman mengatasi sistem sedia ada dalam pelbagai penanda aras kualiti.
Pembangunan ini memberi ByteDance kelebihan dalam persaingan video AI dengan syarikat seperti Google, Meta, dan Microsoft.
Pakar industri percaya teknologi ini boleh merevolusikan penghasilan hiburan, kandungan pendidikan, dan komunikasi digital, tetapi ia juga menimbulkan kebimbangan mengenai penyalahgunaan media sintetik untuk tujuan penipuan.
Penyelidik akan membentangkan kajian ini di persidangan komputer akan datang, namun butiran lanjut belum diumumkan.
{suggest}
Sumber: arXiv