Pelopor kecerdasan buatan OpenAI mengumumkan alat generatif baru pada hari Kamis. Dijuluki Sora (kata dalam bahasa Jepang untuk langit), ini adalah pengembangan OpenAI yang paling ambisius hingga saat ini, mampu menghasilkan video definisi tinggi yang kompleks hingga satu menit hanya dengan perintah teks. Petunjuk gambar juga dapat digunakan. Sora belum terbuka untuk masyarakat umum, karena OpenAI telah memutuskan untuk membatasi akses ke sekelompok peneliti dan profesional visual tertentu sementara OpenAI menyempurnakan penawarannya. Yang penting, periode pra-pasar ini juga akan digunakan untuk menerapkan langkah-langkah keamanan sehingga alat tersebut tidak digunakan untuk membuat informasi yang salah, konten kebencian, dan sebagainya.
Alat teks-ke-video baru dari Open AI, Sora. Perintah teks di sini, yang (sendiri) membuat video tersebut, adalah:'Seorang wanita penuh gaya berjalan di jalan Tokyo yang dipenuhi neon bercahaya hangat dan papan tanda kota yang beranimasi. Dia mengenakan jaket kulit hitam, gaun merah panjang, dan sepatu bot hitam… —> pic.twitter.com/fK3ca9VcxI16 Februari 2024
Mari selami beberapa contoh. Jika sebuah gambar mengungkapkan ribuan kata, sebuah video dapat melakukan hal yang sama dengan kecepatan puluhan frame per detik. Contoh pertama adalah klip satu menit penuh dari perintah yang relatif kompleks. Di sini, Sora melenturkan ototnya, menampilkan jalanan Tokyo yang diterangi lampu neon, yang baru-baru ini dibasahi oleh curah hujan, dan pergerakan karakter sentral yang elegan.
Dalam postingan blognya tentang Sora, OpenAI menjelaskan bahwa alat prompt-to-video ini telah dirancang untuk menghasilkan adegan kompleks dengan banyak karakter dengan detail yang akurat dan nyata. “Model ini memahami tidak hanya apa yang diminta pengguna dalam prompt, namun juga bagaimana hal-hal tersebut ada di dunia fisik,” tegasnya. Sebagai ilustrasi, OpenAI memimpin dengan video di bawah ini. Namun, representasi Jeep yang melaju di sepanjang jalan kering di lereng gunung yang berdebu melewati hutan tampak seperti 'video game'.
OpenAI baru saja meninggalkan sekelompok perusahaan TxT2Video dalam debu mereka dengan Sora.” Prompt: Kamera mengikuti di belakang SUV vintage putih dengan rak atap hitam saat melaju di jalan tanah curam yang dikelilingi oleh pohon pinus di lereng gunung yang curam, debu beterbangan bangkit dari bannya,… pic.twitter.com/Tl5lSKZlS415 Februari 2024
Mengenai topik teknik video game, analis industri teknologi berpengalaman Patrick Moorhead, memperhitungkan bahwa sebagian besar video yang dihasilkan menampilkan karakter dan kamera yang bergerak secara bersamaan untuk “menipu otak agar tidak memperhatikan detail yang menunjukkan lembah yang luar biasa”. Beberapa orang percaya Sora setidaknya sebagian dilatih menggunakan sumber video sintetis dari Mesin Unreal.
Ada baiknya OpenAI tidak segan-segan mengakui bahwa modelnya masih memiliki kelemahan. Blog tersebut menjelaskan bahwa video yang dibuat Sora “mungkin kesulitan dalam melakukan simulasi fisika dari adegan yang kompleks secara akurat, dan mungkin tidak memahami contoh sebab dan akibat yang spesifik.” Selain itu, OpenAI kembali menunjukkan kepada kita beberapa contoh video. Dari lima yang disoroti, mungkin yang paling mengejutkan mata kita adalah yang menampilkan anak-anak serigala abu-abu, dan video yang disematkan di bawah ini dihasilkan dari prompt “Para arkeolog menemukan kursi plastik generik di padang pasir, menggali dan membersihkannya dengan sangat baik. peduli.”
Sora ini menghancurkan otakku. Apa yang menjadi kenyataan lagi tbh Prompt: Para arkeolog menemukan kursi plastik umum di gurun, menggali dan membersihkannya dengan sangat hati-hati. pic.twitter.com/CuvvF2ro7I15 Februari 2024
Di bawah video di blog OpenAI ini, kesalahan Sora dijelaskan karena model tidak memahami bahwa kursi adalah benda kaku. Tidak perlu waktu lama untuk memperbaikinya…
Keamanan – mengapa kita tidak bisa mendapatkan barang-barang bagus
Kami menyebutkan keselamatan secara singkat di bagian pendahuluan dan jelas bahwa alat AI generatif seperti Sora akan digunakan untuk segala jenis kejahatan oleh masyarakat umum. Namun, OpenAI sangat ingin menerapkan langkah-langkah keamanan di Sora sebelum jam tayang utama untuk mengurangi gelombang hal-hal buruk yang ingin dihasilkan oleh beberapa orang.
Secara khusus, blog OpenAI mengatakan mereka akan bekerja sama dengan penguji pertama untuk mencegah timbulnya “informasi yang salah, konten kebencian, dan bias.” Selain itu, pihaknya mengambil langkah-langkah untuk mencegah dan mendeteksi konten semacam itu dalam video. Topik-topik yang bersifat verboten dan cepat lainnya akan mencakup “kekerasan ekstrem, konten seksual, gambar kebencian, kemiripan dengan selebriti, atau kekayaan intelektual orang lain.”
Rekaman audio dan video palsu sebelumnya telah menjadi berita utama dan memiliki berbagai dampak, jadi membatasi cakupan keluaran Sora mungkin menjadi prioritas bagi pengembang yang bertanggung jawab.
Sora bukanlah generator teks-ke-video pertama yang kami lihat, tetapi sejauh ini merupakan generator paling canggih, kompleks, dan realistis. Banyak yang berkomentar bahwa dampak Sora akan signifikan dan dirasakan jauh melampaui bidang berita komputer dan teknologi.