Nvidia Hopper H200 memecahkan rekor benchmark MLPerf dengan TensorRT — belum ada pengiriman ke Blackwell, maaf

Nvidia melaporkan bahwa GPU Hopper H200 AI baru yang dikombinasikan dengan TensorRT LLM yang meningkatkan kinerja telah memecahkan rekor dalam tolok ukur kinerja MLPerf terbaru. Pemasangan bersama-sama telah meningkatkan kinerja H200 hingga 31,712 token per detik dalam benchmark Llama 2 70B MLPerf, peningkatan 45% dibandingkan GPU H100 Hopper generasi sebelumnya dari Nvidia.

Hopper H200 pada dasarnya adalah silikon yang sama dengan H100, tetapi memorinya ditingkatkan menjadi tumpukan HBM3e 24GB 12-Hi. Hal ini menghasilkan memori sebesar 141 GB per GPU dengan bandwidth 4,8 TB/dtk, sedangkan H100 biasanya hanya memiliki 80 GB per GPU (94 GB pada model tertentu) dengan bandwidth hingga 3 TB/dtk.

Rekor ini pasti akan dipecahkan pada akhir tahun ini, atau awal tahun depan, setelah GPU Blackwell B200 yang akan datang memasuki pasar. Nvidia kemungkinan memiliki Blackwell sendiri dan sedang menjalani pengujian, tetapi belum tersedia untuk umum. Namun, ia mengklaim kinerja hingga 4X lebih tinggi dari H100 untuk beban kerja pelatihan.

Nvidia adalah satu-satunya produsen perangkat keras AI di pasar yang telah mempublikasikan hasil lengkap sejak tolok ukur inferensi pusat data MLPerf tersedia pada akhir tahun 2020. Iterasi terbaru dari tolok ukur baru MLPerf menggunakan Llama 2 70B, yang merupakan model bahasa canggih memanfaatkan 70 miliar parameter. Llama 2 10x lebih besar dibandingkan GPT-J LLM yang digunakan sebelumnya dalam benchmark MLPerf.

Tolok ukur MLPerf adalah serangkaian tolok ukur yang dikembangkan oleh ML Commons yang dirancang untuk memberikan evaluasi kinerja pelatihan dan inferensi yang tidak memihak untuk perangkat lunak, perangkat keras, dan layanan. Seluruh rangkaian tolok ukur terdiri dari banyak desain jaringan saraf AI, termasuk GPT-3, Stable Diffusion V2, dan DLRM-DCNv2.

Nvidia juga menyoroti seberapa besar keberhasilannya meningkatkan kinerja GPU H100 dengan perangkat lunak TensorRT — rangkaian alat sumber terbuka untuk membantu mempercepat efisiensi pemrosesan GPU-nya. TensortRT terdiri dari beberapa elemen, termasuk paralelisme tensor dan batching dalam penerbangan. Paralelisme tensor menggunakan matriks bobot individual untuk menjalankan model AI secara efisien di beberapa GPU dan server. Pengelompokan dalam penerbangan mengeluarkan urutan permintaan batch yang sudah selesai dan mulai mengeksekusi permintaan baru saat yang lain masih dalam penerbangan.

Penyempurnaan TensorRT ketika diterapkan pada benchmark MLPerf GPT-J menghasilkan peningkatan kinerja 3X lipat selama enam bulan terakhir — untuk hardware yang sama.

Nvidia juga menyoroti kinerjanya di MLPerf Llama 2 70B jika dibandingkan dengan solusi NPU Gaudi2 Intel. Menurut grafik Nvidia, H200 mencapai rekor dunianya dengan skor 31.712 dalam mode server dengan peningkatan TensorRT-LLM. Dalam mode offline, chip tersebut mencetak 29.526 poin. Skor baru H200 sekitar 45% lebih cepat dibandingkan dengan H100, sebagian besar berkat bandwidth dan kapasitas memori yang lebih besar. Dalam benchmark yang sama, yang juga menggunakan TensorRT, H100 memperoleh skor masing-masing 21.806 dan 20.556 dalam mode server dan offline. Hasil Gaudi2 Intel sebagai perbandingan hanya 6.287 dan 8.035 dalam mode server dan offline.

Selain TensorRT, Nvidia telah mengintegrasikan beberapa pengoptimalan lainnya ke dalam GPU-nya. Ketersebaran terstruktur dilaporkan menambah kecepatan inferensi sebesar 33% dengan Llama 2 dengan mengurangi penghitungan pada GPU. Pemangkasan adalah pengoptimalan lain yang menyederhanakan model AI atau LLM untuk meningkatkan throughput inferensi. DeepCache mengurangi perhitungan matematika yang diperlukan untuk inferensi dengan model Stable Diffusion XL, sehingga mempercepat kinerja sebesar 74%.

Di bawah ini adalah slide lengkap dari pengumuman MLPerf Nvidia. Anda juga dapat membaca selengkapnya tentang beberapa peningkatan TensorRT yang terjadi di Difusi Stabil.