フォロー

grokによると、A19 proを利用したLlama 3.1 8B(4-bit量子化)をローカル実行した場合の生成速度の推定は、25-35 tokens per secondとのこと。

ログインして会話に参加
グルドン

Mastodon は、オープンなウェブプロトコルを採用した、自由でオープンソースなソーシャルネットワークです。電子メールのような分散型の仕組みを採っています。