Meta peneliti membangun “Model Rekonstruksi Besar (LRM)” yang dapat menghasilkan kepala avatar fotorealistik yang dianimasikan dalam beberapa menit dari hanya empat selfie.
Meta telah meneliti generasi avatar fotorealistik dan animasi selama lebih dari enam tahun sekarang, dan versi berkualitas tertinggi bahkan melintasi Lembah yang luar biasa, dalam pengalaman kami.
Salah satu tantangan terbesar untuk avatar fotorealistik hingga saat ini adalah jumlah data dan waktu yang diperlukan untuk menghasilkannya. Sistem berkualitas tinggi Meta membutuhkan rig penangkapan khusus yang sangat mahal dengan lebih dari 100 kamera. Perusahaan telah menunjukkan penelitian tentang menghasilkan avatar berkualitas lebih rendah dengan pemindaian smartphone, tetapi ini mengharuskan membuat 65 ekspresi wajah selama lebih dari tiga menit, dan data yang ditangkap membutuhkan waktu beberapa jam untuk memproses pada mesin dengan empat GPU kelas atas.
Sekarang, dalam sebuah makalah baru yang disebut Avat3R, para peneliti dari Meta dan Technical University of Munich sedang menyajikan sistem yang dapat menghasilkan kepala avatar fotorealistik yang terangsang dari hanya empat selfie telepon, dan pemrosesan membutuhkan waktu beberapa menit, bukan berjam -jam.
Pada tingkat teknis, Avat3R dibangun berdasarkan konsep model rekonstruksi besar (LRM), memanfaatkan transformator untuk tugas visual 3D dalam arti yang sama seperti model bahasa besar (LLM) dilakukan untuk bahasa alami. Ini sering disebut transformator penglihatan, atau vit. Transformator penglihatan ini digunakan untuk memprediksi satu set Gaussians 3D, mirip dengan Gaussian Splatting yang mungkin pernah Anda dengar dalam konteks adegan fotorealistik seperti Varjo Teleport, Horizon Hiperscapes, Gracia, dan Niantic's Scaniverse.
Implementasi spesifik dari sistem animasi Avat3R tidak didorong oleh sensor wajah dan pelacakan mata headset VR, tetapi tidak ada alasan itu tidak dapat diadaptasi untuk memanfaatkan ini sebagai input.
Namun, sementara data Avat3R dan persyaratan komputasi untuk generasi sangat rendah, itu tidak cocok untuk rendering real-time. Menurut para peneliti, sistem hasil akhir hanya berjalan pada 8 fps pada RTX 3090. Namun, di AI adalah umum untuk melihat iterasi ide -ide baru berikutnya mencapai perintah optimisasi besarnya, dan pendekatan Avat3R menunjukkan jalan yang menjanjikan ke satu hari, pada akhirnya, membiarkan pemilik headset mengatur avatar fotorealistik dengan beberapa menit dan beberapa menit.