作為三平台評測的最終章(前兩篇為 M2 Max 96GB MLX 與 GH200 vLLM ),本篇將完整測試一下 GB10 的吞吐量表現、32K 長 Context 的速度代價、以及在 Podman 部署時讓人抓狂的 OOM 踩坑紀錄。 在數據的結果來看,155 tok/s,比 M2 Max 快了整整 10 倍! 更重要的是,Context 長度一路從 2K 解鎖到 32K都成功Pass,直接與老大哥 GH200 站在同一條起跑線上,直到 32,600 tokens 才開始撞牆。 整體來說, NVIDIA GB10(Grace Blackwell 128GB)在執行 Diffusion...

Source: [Dev.to](https://dev.to/jh5_pulse/gb10-shi-ce-diffusiongemma-26b-tiao-zhan-32k-ji-xian-43gj)

Sponsored