Tonton dan Tertawa (atau Senyum): Avatar Video AI Synthesia Kini Memaparkan Emosi

Generative AI telah menarik perhatian publik dengan lonjakan dalam menciptakan teks dan gambar yang rumit dan secara masuk akal dari penyingkapan verbal. Tetapi yang menarik – dan biasanya ada yang menarik perhatian – adalah hasilnya sering jauh dari sempurna saat Anda melihatnya sedikit lebih dekat.

Orang menunjukkan jari-jari aneh, ubin lantai melonggar dan masalah matematika memang begitu: bermasalah, kadang-kadang mereka tidak sesuai.

Sekarang, Synthesia – salah satu startup AI ambisius yang bekerja dalam video, khususnya avatar kustom dirancang untuk pengguna bisnis membuat konten video promosi, pelatihan, dan bisnis lainnya – merilis pembaruan yang diharapkan dapat membantunya melompat jauh melewati beberapa tantangan di bidangnya. Versi terbarunya menampilkan avatar – dibangun berdasarkan manusia sebenarnya yang ditangkap di studio mereka – yang memberikan lebih banyak emosi, pelacakan bibir yang lebih baik, dan apa yang dikatakan sebagai gerakan alami dan manusiawi yang lebih ekspresif ketika mereka diberi teks untuk menghasilkan video.

Pelepasan ini datang setelah beberapa kemajuan yang mengesankan bagi perusahaan hingga saat ini. Berbeda dengan pemain AI generatif lain seperti OpenAI, yang telah membangun strategi dua tongkat – meningkatkan kesadaran publik yang besar dengan alat konsumen seperti ChatGPT sambil juga membangun penawaran B2B, dengan API-nya digunakan oleh pengembang independen serta perusahaan raksasa – Synthesia cenderung kepada pendekatan yang diambil beberapa startup AI terkemuka lainnya.

Serupa dengan fokus Perplexity pada pencarian AI generatif yang sangat unggul, Synthesia berfokus pada bagaimana membangun avatar video generatif yang paling mirip manusia mungkin. Lebih spesifik lagi, perusahaan ini berupaya melakukan ini hanya untuk pasar bisnis dan kasus penggunaan seperti pelatihan dan pemasaran.

Fokus ini telah membantu Synthesia standout dalam apa yang telah menjadi pasar AI yang sangat ramai yang berisiko menjadi komoditas ketika kehebohan menetap ke dalam kekhawatiran jangka panjang seperti ARR, ekonomi unit, dan biaya operasional yang terlampir pada implementasi AI.

Synthesia menggambarkan Avatar Ekspresif barunya, versi yang dirilis hari Kamis, sebagai yang pertama dalam jenisnya: “Avatar pertama di dunia sepenuhnya yang dihasilkan dengan AI.” Dibangun dengan model besar yang sudah dilatih, Synthesia mengatakan terobosannya adalah bagaimana mereka digabungkan untuk mencapai distribusi multimodal yang lebih mirip dengan cara manusia sebenarnya berbicara.

Ini dihasilkan secara langsung, kata Synthesia, yang dimaksudkan untuk lebih mendekati pengalaman yang kita alami saat berbicara atau bereaksi dalam kehidupan. Ini berbeda dengan cara banyak alat video AI berbasis avatar bekerja saat ini: biasanya ini sebenarnya banyak elemen video yang dengan cepat disatukan untuk membuat respons wajah yang sejajar, lebih kurang, dengan naskah yang dimasukkan ke dalamnya. Tujuannya adalah agar terlihat kurang robotik dan lebih hidup.

Versi sebelumnya:

Versi baru:

Seperti yang dapat Anda lihat dalam dua contoh di sini, salah satunya dari versi lama Synthesia dan yang dirilis hari Kamis, masih ada jalan yang harus ditempuh, sesuatu yang CEO Victor Riparbelli sendiri juga akui.

“Tentu saja belum 100% sampai di sana, tetapi akan sangat, sangat cepat, pada akhir tahun. Itu akan sangat mengesankan,” kata dia kepada TechCrunch. “Saya pikir Anda juga dapat melihat bahwa bagian AI dari ini sangat halus. Dengan manusia, ada begitu banyak informasi dalam detail terkecil, dalam gerakan terkecil dari otot wajah kita. Saya pikir kita tidak akan pernah bisa duduk dan menggambarkan, ‘Ya, Anda tersenyum seperti ini saat bahagia, tetapi itu palsu, kan?’ Itu adalah sesuatu yang sangat kompleks untuk pernah dijelaskan bagi manusia, tetapi bisa diambil dalam jaringan pembelajaran yang mendalam. Mereka sebenarnya mampu menemukan pola dan kemudian menduplikasikannya dengan cara yang dapat diprediksi.” Hal berikutnya yang sedang dikerjakan, tambahnya, adalah tangan.

“Tangan itu, seperti, sangat sulit,” katanya.

Fokus pada B2B juga membantu Synthesia mengikat pesan dan produknya lebih pada penggunaan AI “aman.” Ini sangat penting, terutama dengan kekhawatiran besar saat ini tentang deepfakes dan penggunaan AI untuk tujuan jahat seperti disinformasi dan penipuan. Namun demikian, Synthesia tidak sepenuhnya berhasil menghindari kontroversi dalam hal itu. Teknologi Synthesia sebelumnya telah disalahgunakan untuk membuat propaganda di Venezuela dan laporan berita palsu yang dipromosikan oleh akun media sosial pro-China.

Perusahaan mencatat bahwa telah mengambil langkah-langkah lebih lanjut untuk mencoba mengunci penggunaan tersebut. Bulan lalu, perusahaan memperbarui kebijakannya, katanya, “untuk membatasi jenis konten yang dapat dibuat orang, berinvestasi dalam deteksi dini pelaku jahat, meningkatkan tim yang bekerja pada keamanan AI, dan bereksperimen dengan teknologi akreditasi konten seperti C2PA.”

Meskipun tantangan-tantangan itu, perusahaan terus tumbuh.

Nilai terakhir Synthesia adalah $1 miliar ketika mereka mengumpulkan $90 juta. Penting dicatat bahwa penggalangan dana tersebut hampir satu tahun yang lalu, pada bulan Juni 2023.

Riparbelli mengatakan dalam wawancara awal bulan ini bahwa saat ini tidak ada rencana untuk mengumpulkan lebih banyak dana, meskipun hal itu sebenarnya tidak menjawab pertanyaan apakah Synthesia sedang mendapat pendekatan proaktif. (Catatan: Kami sangat senang memiliki Riparbelli yang sebenarnya berbicara di sebuah acara kami di London pada bulan Mei, di mana saya pasti akan bertanya tentang hal ini lagi. Silakan datang jika Anda berada di kota tersebut.)

Yang pasti kita ketahui adalah bahwa AI membutuhkan banyak uang untuk dibangun dan dijalankan, dan Synthesia telah membangun dan menjalankannya banyak.

Sebelum diluncurkannya versi hari Kamis, sekitar 200.000 orang telah membuat lebih dari 18 juta presentasi video di seluruh beberapa 130 bahasa menggunakan 225 avatar warisan Synthesia, kata perusahaan. (Mereka tidak memecah berapa pengguna yang berada di tingkat berbayar, tetapi ada banyak pelanggan terkenal termasuk Zoom, BBC, DuPont, dan banyak lagi, dan perusahaan membayar.) Harapan startup, tentu saja, adalah bahwa dengan peluncuran versi baru, angka-angka tersebut akan meningkat lagi.