CPU server Grace Nvidia tampaknya sangat kompetitif, menurut ulasan Phoronix terhadap GH100, yang mencakup satu chip Grace. Meskipun CPU Arm 72-core Nvidia tertinggal di belakang andalan AMD dan Intel dalam kinerja keseluruhan, ia menang dalam lebih banyak benchmark daripada Epyc 9754 atau Xeon Platinum 8592+ kelas atas. Dengan lebih banyak optimasi pada arsitektur Arm, Grace terbukti menjadi prosesor pusat data yang sangat kuat.
GH100 dilengkapi GPU Hopper dan CPU Grace 72-core dengan RAM LPDDR5X 480GB. Karena Nvidia tidak menjual satu chip Grace saja, GH100 (dan GH200) adalah satu-satunya perangkat yang dapat diuji untuk memastikan kinerja hanya satu CPU Grace. Phoronix memperoleh akses ke GH100 melalui GPTshop.ai, tetapi hanya dari jarak jauh. Tidak ada statistik daya yang ditampilkan pada komputer jarak jauh, dan karena publikasi tersebut tidak dapat melihat penarikan daya dari dinding, tidak ada angka daya yang dikutip dalam tinjauan tersebut.
Benchmark dilakukan di Linux, sistem operasi server yang paling umum. Tinjauan ini mencakup perbandingan dengan banyak CPU berbeda, termasuk pengaturan soket ganda. Pada tabel di bawah, kami telah mengambil hasil yang membandingkan Grace dengan Epyc 9754 berbasis Bergamo andalan AMD dan Emerald Rapids Xeon Platinum 8592+ kelas atas dari Intel.
Baris 0 – Sel 0 | Grace-Hopper GH200 | Epik 9754 | Xeon Platinum 8592+ |
Gradien Konjugat Kinerja Tinggi | 41.69 | 25.89 | 35.42 |
Tolok Ukur Multi-Grid Aljabar 1.2 | 1.997.929.111 | 2.291.049.667 | 1.839.912.667 |
LULES 2.0.3 | 23.185.18 | 22.356,75 | 39.468,91 |
Xmrig 6.18.1 | 17.253 | 29.356.1 | 40.381,2 |
John The Ripper 2023.03.14 | 68.817 | 204.828 | 178.108 |
ACES DGEMM 1.0 | 17.94 | 43.68 | 29.14 |
GrafikMagick 1.3.38 Pertajam | 1.363 | 924 | 749 |
GrafikMagick 1.3.38 Peningkatan | 1.761 | 1.451 | 1.192 |
Grafik500 3.0 Median | 1.239.790.000 | 1.147.090.000 | 1.238.670.000 |
Grafik500 3.0 Maks | 1.315.650.000 | 1.184.510.000 | 1.304.200.000 |
Matriks Stres-NG 0.16.04 | 512.759.08 | 552.067.04 | 301.894,53 |
Stres-NG 0.16.04 Matriks 3D | 17.483.02 | 8.009.21 | 13.854,38 |
Semua tes ini diukur dalam nilai yang berbeda, mulai dari GFLOP, penghitungan per detik, hingga poin. Sebagian besar kerugian Grace terdapat dalam penyebaran benchmark ini, itulah sebabnya CPU mungkin tidak terlihat terlalu mengesankan pada pandangan pertama. Namun, ada beban kerja di mana Grace memiliki keunggulan besar, seperti High Performance Conjugate Gradient dan GraphicsMagick.
Baris 0 – Sel 0 | Grace-Hopper GH200 | Epik 9754 | Xeon Platinum 8592+ |
Rodinia 3.1 (Lebih rendah lebih baik) | 30.31 | 25.15 | 39.89 |
NWChem 7.0.2 (Lebih rendah lebih baik) | 1.403,5 | 1.700,8 | 1.850,8 |
Xompact3d Incompact3d (Lebih rendah lebih baik) | 254.49 | 493.5 | 323.53 |
Xompact3d Incompact3d (Lebih rendah lebih baik) | 9.81 | 9.03 | 10.18 |
Kompilasi Godot 4.0 (Lebih rendah lebih baik) | 139.1 | 118.25 | 111.96 |
Primesieve 8.0 (Lebih rendah lebih baik) | 35.49 | 21.76 | 49.06 |
Helsing 1.0-beta (Lebih rendah lebih baik) | 67.61 | 48,95 | 84,95 |
DuckDB 0.9.1 IMDB (Lebih rendah lebih baik) | 92.08 | 147.6 | 96,87 |
Parket DuckDB 0.9.1 TPC-H (Lebih rendah lebih baik) | 148.76 | 177.13 | 134.73 |
RawTherapee (Lebih rendah lebih baik) | 46.72 | 66.13 | 45.53 |
Kompilasi Permata Berwaktu 5 23.0.1 (Lebih rendah lebih baik) | 180.62 | 208.58 | 174.18 |
Kinerja Rata-Rata Keseluruhan | 2.175.03 | 2.459.11 | 2.242,9 |
Grace mengambil lebih banyak tenaga dalam rangkaian tes kedua yang dinilai berdasarkan waktu penyelesaian, di mana lebih rendah lebih baik. Pada akhirnya, satu chip Grace menghasilkan 15 kemenangan melawan Emerald Rapids dan 13 kemenangan melawan Bergamo dan Genoa (yang tidak termasuk dalam tabel, tetapi hasilnya sangat mirip). Bahkan ada beberapa kasus di mana CPU server Nvidia mengalahkan AMD atau Intel dalam sistem soket ganda. Grace juga sangat cepat dibandingkan Altra Max M128-30 milik Ampere yang juga menggunakan Arm.
Namun, karena sebagian besar kerugian Grace cukup besar, rata-rata, ia tertinggal 3% dari Xeon Platinum 8592+ yang didukung Emerald Rapids dan sekitar 13% lebih lambat dibandingkan Epyc 9754 yang berbasis di Bergamo dan Epyc 9654 yang berbasis di Genoa. Menurut Phoronix , “masih ada beberapa beban kerja yang belum dioptimalkan dengan baik untuk AArch64 [Arm],” yang merupakan alasan utama mengapa ketika Grace kalah, sering kali ia kalah dengan selisih yang besar.
Sulit untuk mengevaluasi seberapa bagus Grace sebagai CPU server hanya berdasarkan kinerja, karena efisiensi juga merupakan metrik utama. Namun, kita tahu bahwa superchip Grace yang menggabungkan dua CPU Grace memiliki TDP sebesar 500 watt, yang menyiratkan bahwa satu Grace kemungkinan tidak menggunakan daya lebih dari 350 watt. Tolok ukur awal untuk superchip tentu menunjukkan bahwa superchip tersebut sangat efisien, yang mungkin juga berlaku untuk konfigurasi chip tunggal.