Sebagai pendukung kuat standar terbuka, Jim Keller men-tweet bahwa Nvidia seharusnya menggunakan konektivitas chip-to-chip protokol Ethernet di GPU GB200 berbasis Blackwell untuk AI dan HPC. Keller berpendapat bahwa hal ini dapat menghemat banyak uang bagi Nvidia dan pengguna perangkat kerasnya. Hal ini juga akan mempermudah pelanggan untuk memigrasikan perangkat lunak mereka ke platform perangkat keras yang berbeda, yang sebenarnya tidak diinginkan oleh Nvidia.
Ketika Nvidia memperkenalkan GPU GB200 untuk aplikasi AI dan HPC, perusahaan ini terutama berfokus pada kinerja AI dan subsistem memori tingkat lanjut, dan tidak banyak menjelaskan tentang cara pembuatan perangkat tersebut. Sementara itu, GPU GB200 Nvidia terdiri dari dua prosesor komputasi yang digabungkan menggunakan teknologi pengemasan CoWoS-L TSMC dan teknologi interkoneksi NVLink, yang menggunakan protokol berpemilik. Hal ini tidak menjadi masalah bagi mereka yang sudah menggunakan perangkat keras dan perangkat lunak Nvidia, namun hal ini menimbulkan tantangan bagi industri dalam melakukan porting perangkat lunak dari platform Nvidia.
Ada alasan mengapa Jim Keller, perancang CPU legendaris dan CEO Tenstorrent, saingan Nvidia, menyarankan agar Nvidia menggunakan Ethernet daripada NVLink berpemilik. Platform Nvidia menggunakan NVLink berlatensi rendah yang dipatenkan untuk komunikasi chip-ke-chip dan server-ke-server (yang bersaing dengan PCIe dengan protokol CXL di atasnya) dan koneksi InfiniBand yang dipatenkan untuk komunikasi tingkat yang lebih tinggi. Untuk memaksimalkan kinerja, perangkat lunak ini disesuaikan dengan kekhasan kedua teknologi tersebut. Untuk alasan yang jelas, hal ini dapat mempersulit porting perangkat lunak ke platform perangkat keras lain, yang bagus untuk Nvidia dan tidak cocok untuk pesaingnya. (Anda dapat melihat rangkaian pesannya jika Anda memperluas tweet di bawah.)
Namun, ada kendalanya. Ethernet adalah teknologi yang ada di mana-mana baik pada tingkat perangkat keras maupun perangkat lunak, dan merupakan pesaing interkoneksi InfiniBand latensi rendah dan bandwidth tinggi (hingga 200 GbE) Nvidia untuk pusat data. Dari segi kinerja, Ethernet (khususnya 400 GbE dan 800 GbE generasi berikutnya) dapat bersaing dengan InfiniBand.
Namun, InfiniBand masih memiliki beberapa keunggulan terkait fitur AI dan HPC serta latensi ekor yang unggul, sehingga beberapa orang mungkin mengatakan bahwa kemampuan Ethernet tidak dapat memenuhi beban kerja AI dan HPC yang muncul. Sementara itu, industri ini – yang dipelopori oleh AMD, Broadcom, Intel, Meta, Microsoft, dan Oracle – sedang mengembangkan teknologi interkoneksi Ultra Ethernet, yang siap menawarkan throughput dan fitur yang lebih tinggi untuk komunikasi AI dan HPC. Tentu saja, Ultra Ethernet akan menjadi pesaing yang lebih layak bagi InfiniBand Nvidia untuk beban kerja semacam ini.
Nvidia juga menghadapi tantangan dengan dominasi platform perangkat lunak CUDA-nya, oleh karena itu munculnya Unified Accelerator Foundation (UXL) yang didukung secara luas oleh industri, sebuah konsorsium industri yang antara lain mencakup Arm, Intel, Qualcomm, dan Samsung, yang dimaksudkan untuk memberikan alternatif. ke CUDA.
Tentu saja, Nvidia perlu mengembangkan platform pusat data untuk digunakan di sini dan saat ini, yang mungkin setidaknya merupakan bagian dari keinginannya untuk menghabiskan miliaran dolar untuk teknologi eksklusif. Jika teknologi standar terbuka seperti PCIe dengan CXL dan Ultra Ethernet akan melampaui teknologi NVLink dan InfiniBand milik Nvidia dalam hal kinerja dan kemampuan, Nvidia harus mengembangkan kembali platformnya, jadi Keller menyarankan (atau troll) agar Nvidia harus mengadopsi Ethernet. Namun, hal ini mungkin memerlukan waktu bertahun-tahun lagi, jadi untuk saat ini, desain Nvidia terus memanfaatkan interkoneksi kepemilikan.