フォロー

DGX Sparkの性能を詳細に分析し、失望点を赤裸々に語っています。

Gemmaベースのオープンソースモデル12Bは、prefill(初期処理)で2.915GB/秒のメモリ帯域を使い、11.6 tokens per second(トークン/秒)のdecode(生成)性能しか出ず、「失望的で、ほとんど使えないレベル」と批判します。

Llama 3.1 70B FP8量子化(75GBモデル)では、2.6 tokens per secondのdecode性能で、理論的なメモリ帯域限界(199.5GB/秒)に近づくものの、RTX 3060(帯域360GB/秒)と比べて遅いと比較します。Qwen 3 Coderでは最大12 tokens per secondと「使えない」と断言。 youtube.com/live/FidVEPKjqkI?s

ログインして会話に参加
グルドン

Mastodon は、オープンなウェブプロトコルを採用した、自由でオープンソースなソーシャルネットワークです。電子メールのような分散型の仕組みを採っています。