**twitwi_shibata** @twitwi_shibata@mstdn.guru · 2025-10-30T11:55:19Z

twitwi_shibata @twitwi_shibata@mstdn.guru

twitwi_shibata @twitwi_shibata@mstdn.guru

DGX Sparkの性能を詳細に分析し、失望点を赤裸々に語っています。

Gemmaベースのオープンソースモデル12Bは、prefill（初期処理）で2.915GB/秒のメモリ帯域を使い、11.6 tokens per second（トークン/秒）のdecode（生成）性能しか出ず、「失望的で、ほとんど使えないレベル」と批判します。

Llama 3.1 70B FP8量子化（75GBモデル）では、2.6 tokens per secondのdecode性能で、理論的なメモリ帯域限界（199.5GB/秒）に近づくものの、RTX 3060（帯域360GB/秒）と比べて遅いと比較します。Qwen 3 Coderでは最大12 tokens per secondと「使えない」と断言。　https://www.youtube.com/live/FidVEPKjqkI?si=gdt1TzyJKIUHTjRT

2025年10月30日 11:55 · · Web · · ·

ログインして会話に参加

リソース

開発者向け

Mastodon とは？

mstdn.guru

さらに…