蒸留LLMをローカルで動かす試みがあちこちで見られますね。RP
DeepSeek-R1のIQ1_S(1.58bit)をRTX 4090(24GB)で試している。
llama.cppのオプション--n-gpu-layersでロードさせるレイヤー数を指定可能。8レイヤーで23.3GB、これが1枚の限界か。
当然のことながらGPUに乗りきってませんから遅い。だけど、動きはします...。
huggingface.co/unsloth/DeepSe…
https://x.com/noguchis/status/1884802487049433584?s=61
1.58-bit DeepSeek-R1を128GB M2 Ultraで動かそうと試行錯誤した結果、(理由はわからないが)面白いことに気がついた。
中途半端にGPUを使うと2tpsしか出ないが、いっそCPUだけを使うようにしたら、むしろ推論速度が速くなり、なぜかメモリ使用量も激減。これならもっと大きなモデルもいけるのでは?
https://x.com/gosrum/status/1884802296489615827?s=61