**skawa (guru）** @skawa@mstdn.guru · 2025-01-30T18:41:11Z

skawa (guru） @skawa@mstdn.guru

　蒸留LLMをローカルで動かす試みがあちこちで見られますね。RP

DeepSeek-R1のIQ1_S(1.58bit)をRTX 4090(24GB)で試している。
llama.cppのオプション--n-gpu-layersでロードさせるレイヤー数を指定可能。8レイヤーで23.3GB、これが1枚の限界か。

当然のことながらGPUに乗りきってませんから遅い。だけど、動きはします...。

huggingface.co/unsloth/DeepSe…
https://x.com/noguchis/status/1884802487049433584?s=61

1.58-bit DeepSeek-R1を128GB M2 Ultraで動かそうと試行錯誤した結果、(理由はわからないが)面白いことに気がついた。
中途半端にGPUを使うと2tpsしか出ないが、いっそCPUだけを使うようにしたら、むしろ推論速度が速くなり、なぜかメモリ使用量も激減。これならもっと大きなモデルもいけるのでは？
https://x.com/gosrum/status/1884802296489615827?s=61

2025年01月30日 18:41 · · Metatext · · ·

ログインして会話に参加

リソース

開発者向け

Mastodon とは？

mstdn.guru

さらに…