DGX Sparkの性能を詳細に分析し、失望点を赤裸々に語っています。
Gemmaベースのオープンソースモデル12Bは、prefill(初期処理)で2.915GB/秒のメモリ帯域を使い、11.6 tokens per second(トークン/秒)のdecode(生成)性能しか出ず、「失望的で、ほとんど使えないレベル」と批判します。
Llama 3.1 70B FP8量子化(75GBモデル)では、2.6 tokens per secondのdecode性能で、理論的なメモリ帯域限界(199.5GB/秒)に近づくものの、RTX 3060(帯域360GB/秒)と比べて遅いと比較します。Qwen 3 Coderでは最大12 tokens per secondと「使えない」と断言。 https://www.youtube.com/live/FidVEPKjqkI?si=gdt1TzyJKIUHTjRT