なんと!!!
AI業界の不都合な真実を赤裸々に語っています。それは、Llamaなどのオープンソースモデルにおいて、「同じモデルの重み(Weights)を使っていれば、どこで動かしても同じ結果が出る」という考えは幻想であるということです。
さまざまなクラウドプロバイダーの実装品質を比較すると、そこには驚くほどの「ばらつき(Variance)」が存在します。特に巨大なモデルになればなるほど、その傾向は顕著です。
異なるハードウェア上で、巨大なモデルを最適に動かすためのソフトウェア階層(推論スタック)を構築するのは、極めて難易度の高いエンジニアリング課題です。この「推論をうまく走らせる能力」そのものが、もはや一つの高度な技術障壁。
https://youtu.be/KhoUSylflto?si=KvL37fEzHipMblB1