Inilah cara NVIDIA meningkatkan kecepatan GenAI dengan TensorRT yang berjalan secara lokal

Dalam beberapa tahun terakhir, popularitas AI semakin meningkat, dengan chatbots dan generator gambar yang mendorong peningkatan tersebut. Alat-alat ini dilatih secara ekstensif pada kumpulan data besar yang disebut Model Bahasa Besar (LLM), yang digunakan untuk menghasilkan hasil yang kita lihat. Namun, mendapatkan hasil tersebut dengan cepat bergantung pada kekuatan komputasi yang serius. Lebih dari 100 juta pengguna telah menggunakan perangkat keras NVIDIA yang kuat untuk menjalankan model AI. Itu karena NVIDIA menawarkan perangkat keras yang unggul dalam proses tersebut, yang dikenal sebagai inferensi, dengan GPU yang menyertakan inti yang dirancang khusus untuk kemampuan AI, dan menggabungkan perangkat keras ini dengan perangkat lunak TensorRT yang mengoptimalkan kinerja dengan menemukan pintasan untuk mengerjakan model tanpa mengorbankan akurasi.

Inti yang didukung AI ini dikenal sebagai Tensor Cores, dan merupakan tulang punggung TensorRT NVIDIA, perangkat lunak yang mengatur aplikasi AI agar berjalan di perangkat keras NVIDIA untuk akselerasi inferensi yang ekstrem. Meskipun komputer pada umumnya mungkin memiliki perangkat keras yang mampu menjalankan antara 10 dan 45 AI teraops (TOPS), GPU NVIDIA RTX terbaru dapat menjalankan antara 200 dan 1.300 TOPS, dan itu adalah pemrosesan lokal di perangkat. GPU pusat data dapat meningkatkannya.