Ampere A100 dari Nvidia sebelumnya merupakan salah satu akselerator AI teratas, sebelum dicopot oleh Hopper H100 yang lebih baru — belum lagi H200 dan Blackwell GB200 yang akan datang. Sepertinya pembuat chip tersebut telah bereksperimen dengan versi yang disempurnakan namun tidak pernah masuk ke pasar, atau mungkin perusahaan secara diam-diam memodifikasi A100 untuk membuatnya lebih cepat setelah sanksi AS terhadap Tiongkok. Pengguna X Jiacheng Liu baru-baru ini menemukan berbagai prototipe A100 di pasar barang bekas Tiongkok yang memamerkan spesifikasi jauh lebih tinggi daripada A100 'biasa' Nvidia.
Meskipun atributnya ditingkatkan, A100 7936SP (nama tidak resmi, berdasarkan prosesor shader 7936) menggunakan die GA100 Ampere yang sama dengan A100 biasa. Namun, yang pertama memiliki 124 SM yang diaktifkan (Streaming Multiprocessors) dari kemungkinan 128 pada silikon GA100. Meskipun ini bukan konfigurasi maksimum, A100 7936SP memiliki inti CUDA 15% lebih banyak dibandingkan A100 standar, yang menunjukkan peningkatan kinerja yang signifikan.
Jumlah inti tensor juga meningkat sebanding dengan jumlah SM. Memiliki lebih banyak SM yang diaktifkan berarti A100 7936SP juga memiliki lebih banyak inti Tensor. Berdasarkan spesifikasi saja, peningkatan jumlah inti SM, CUDA, dan Tensor sebesar 15% juga dapat meningkatkan kinerja AI sebesar 15%.
Nvidia menawarkan A100 dalam konfigurasi 40GB dan 80GB. A100 7936SP juga hadir dalam dua varian. A100 7936SP Model 40GB memamerkan clock dasar 59% lebih tinggi dibandingkan A100 80GB dengan tetap mempertahankan boost clock 1.410 MHz yang sama. Di sisi lain, A100 7936SP 96GB menunjukkan clock dasar 18% lebih cepat dibandingkan A100 biasa, dan juga memungkinkan tumpukan HBM2 keenam mencapai total memori 96GB. Sayangnya, penjual Tiongkok telah menyensor peningkatan kecepatan clock dari tangkapan layar GPU-Z.
Spesifikasi Nvidia A100 7936SP
Kartu grafik | A100 7936SP 96GB | A100 80GB | A100 7936SP 40GB | A100 40GB |
---|---|---|---|---|
Arsitektur | GA100 | GA100 | GA100 | GA100 |
Proses teknologi | TSMC 7N | TSMC 7N | TSMC 7N | TSMC 7N |
Transistor (Miliar) | 54.2 | 54.2 | 54.2 | 54.2 |
Ukuran cetakan (mm^2) | 826 | 826 | 826 | 54.2 |
SMS | 124 | 108 | 124 | 108 |
Inti CUDA | 7.936 | 6.912 | 7.936 | 6.912 |
Tensor / Inti AI | 496 | 432 | 496 | 432 |
Inti Penelusuran Sinar | T/A | T/A | T/A | T/A |
Jam Dasar (MHz) | 1.260 | 1.065 | 1.215 | 765 |
Peningkatan Jam (MHz) | ? | 1.410 | 1.410 | 1.410 |
TFLOPS (FP16) | >320 | 312 | 358 | 312 |
Kecepatan VRAM (Gbps) | 2.8 | 3 | 2.4 | 2.4 |
VRAM (GB) | 96 | 80 | 40 | 40 |
Lebar Bus VRAM (Bit) | 6.144 | 5.120 | 5.120 | 5120 |
L2 (MB) | ? | 80 | ? | 40 |
Render Unit Keluaran | 192 | 160 | 160 | 160 |
Unit Pemetaan Tekstur | 496 | 432 | 432 | 432 |
Bandwidth (TB/dtk) | 2.16 | 1.94 | 1.56 | 1.56 |
TDP (watt) | ? | 300 | ? | 250 |
Subsistem memori A100 7936SP 40GB identik dengan A100 40GB. Memori HBM2 sebesar 40 GB berjalan pada 2,4 Gbps melalui antarmuka memori 5120-bit menggunakan lima tumpukan HBM2. Desainnya berkontribusi pada bandwidth memori maksimum hingga 1,56 TB/s. Namun, model A100 7936SP 96GB adalah yang utama di sini. Kartu grafis ini memiliki memori HBM2 20% lebih banyak daripada yang ditawarkan Nvidia berkat tumpukan HBM2 keenam yang diaktifkan. Melatih model bahasa yang sangat besar dapat memakan banyak memori, sehingga kapasitas tambahan tentu akan berguna untuk pekerjaan AI.
A100 7936SP 96GB tampaknya menggunakan subsistem memori yang diperbarui dibandingkan dengan A100 80GB — memori HBM2 bekerja pada 2,8 Gbps, bukan 3 Gbps, tetapi berada pada bus memori 6144-bit yang lebih lebar untuk membantu mengatasi perbedaan tersebut. Hal ini menyebabkan A100 7936SP 96GB memiliki bandwidth memori sekitar 11% lebih banyak dibandingkan A100 80GB.
A100 40GB dan 80GB masing-masing memiliki TDP 250W dan 300W. Mengingat spesifikasinya yang lebih cepat, A100 7936SP bisa saja memiliki TDP yang lebih tinggi. Namun, nilainya tidak tersedia dari tangkapan layar GPU-Z yang dibagikan. PCB rekayasa memiliki tiga konektor daya PCIe 8-pin, bukan konektor daya PCIe 8-pin tunggal milik vanilla A100. Sebagai prototipe rekayasa, A100 7936SP mungkin tidak menggunakan ketiga konektor daya, tetapi harus menggunakan daya lebih besar daripada A100 standar karena inti CUDA tambahan dan memori HBM2.
Banyak penjual Cina yang menjual A100 7936SP di eBay. Model 96GB berkisar antara $18.000 dan $19.800. Tidak diketahui apakah akselerator tersebut merupakan sampel rekayasa yang lolos dari laboratorium Nvidia, atau apakah akselerator tersebut merupakan model khusus yang dikembangkan pembuat chip untuk klien tertentu. Dalam kondisi apa pun, mengambil kartu tersebut tidak sah, karena A100 mungkin terkena sanksi ekspor terbaru AS, sehingga tidak memengaruhi kartu yang sudah ada di Tiongkok.
Tentu saja tidak ada garansi atau dukungan driver resmi. Meskipun A100 7936SP menawarkan kinerja yang lebih baik daripada A100 dengan harga yang sama atau mungkin lebih rendah, membeli produk retail atau menyewa GPU untuk semua kebutuhan AI Anda lebih aman. Namun untuk pasar Cina, yang tidak bisa lagi mengimpor GPU A100, penambahan memori dan komputasi tampaknya patut dipertimbangkan.