Tolok ukur kecerdasan buatan (AI) baru berdasarkan judul arcade klasik Street Fighter III dirancang pada hackathon Mistral AI di San Francisco minggu lalu. Tolok ukur LLM Colosseum sumber terbuka dikembangkan oleh Stan Girard Dan Otak Quivr. Game ini berjalan di emulator, memungkinkan LLM untuk bertarung dengan cara yang tidak konvensional namun spektakuler.
Penggemar AI, Matthew Berman, memperkenalkan turnamen model bahasa besar (LLM) berbasis beat-em-up baru dalam video yang tersemat di atas. Selain menampilkan aksi perkelahian jalanan, video Berman memandu Anda menginstal proyek sumber terbuka ini di PC rumah atau Mac, sehingga Anda dapat mengujinya sendiri.
Ini bukan tolok ukur LLM pada umumnya. Model yang lebih kecil biasanya memiliki keunggulan latensi dan kecepatan, yang berarti memenangkan lebih banyak pertarungan dalam game ini. Pemain manusia beat-em-up mendapat manfaat dari reaksi cepat terhadap gerakan balasan lawan mereka, dan hal yang sama juga berlaku dalam aksi AI-vs-AI ini.
LLM membuat keputusan real-time mengenai cara mereka bertarung. Sebagai model berbasis teks, mereka telah diarahkan bagaimana bereaksi terhadap aksi permainan setelah terlebih dahulu menganalisis keadaan permainan untuk mengetahui konteksnya dan kemudian mempertimbangkan opsi pergerakan mereka. Opsi pemindahan meliputi; mendekat, menjauh, bola api, megapunch, badai, dan bola api besar.
Dalam video tersebut Anda dapat melihat bahwa pertarungan terlihat lancar, dan para pemain tampak strategis dalam melakukan serangan balik, pemblokiran, dan penggunaan gerakan khusus. Namun, pada saat penulisan proyek ini hanya mengizinkan penggunaan karakter Ken – yang memberikan keseimbangan sempurna, namun mungkin kurang menarik untuk ditonton.
Jadi, AI Street Fighter III mana yang terbaik? Menurut pengujian yang dilakukan oleh Girard, GPT 3.5 Turbo OpenAI adalah pemenang yang tepat (ELO 1776) dari delapan LLM yang mereka adu satu sama lain. Dalam serangkaian tes terpisah, oleh eksekutif Amazon Banjo Obayomi, kami melihat 14 LLM bertanding dalam 314 pertandingan individu dengan claude_3_haiku Anthropic akhirnya menang (ELO 1613).
Menariknya, Banjo juga mengamati bahwa bug/fitur LLM seperti halusinasi AI dan rel pengaman AI terkadang menghalangi performa model tertentu.
Yang terakhir, muncul pertanyaan apakah ini merupakan tolok ukur yang berguna untuk LLM, atau sekadar gangguan yang menarik. Permainan yang lebih kompleks dapat memberikan wawasan yang lebih bermanfaat, namun hasilnya mungkin akan lebih sulit untuk ditafsirkan.