1180 tok/s 的地表極速是什麼概念?在 256 tokens 的輸出下,運算只要 0. 22 秒就瞬間結束,這表示 DiffusionGemma 26B 在 NVIDIA GH200 上跑 vLLM 的速度,整整比 M2 Max 快了 80 倍! 延續系列第一篇在 M2 Max 96GB (MLX) 篇 中探討地端 Agent「無限 Token 自由」的實驗,當時 Standard 4-bit 雖然擠出了 31. 6 tok/s 的不錯峰值,但面對長 Context(上下文)與多用戶併發請求時,Mac 的排隊機制與記憶體頻寬依然顯得力不從心。 為了追求 Production等級部...
Source: [Dev.to](https://dev.to/jh5_pulse/diffusiongemma-26b-tiao-zhan-gh200-xiao-neng-ji-xian-1b24)