お客様の中に8GB版をお持ちの方はいらっしゃいませんか〜? RT
改めて見てみると、これはRaspberry Pi 4 (4GB RAM版)で1トークン10秒くらいで動いてるというけど、LLaMA (7B, 4-bit)は4GBぐらいあるのでメモリに乗りきってなさそう。スクショのtopをよく見ると実際4GB使い切ってて、5GBスワップしてる。これ8GB版RasPi 4とか使ったらもっと速くならないかな https://twitter.com/miolini/status/1634982361757790209