RWKVの14億パラメータモデルで2%ほど日本語がトレーニングデータに入ってる物があったので試したところ、内容は変だけど一応受け答えはできるようになってる。
https://huggingface.co/BlinkDL/rwkv-4-raven
日本語データをもっと入れたモデル、どっかの研究機関が作ってくれないかなぁ。リソース的に個人じゃ無理、、、
RTX4090でRWKVの14Bモデルが動かせるようになったので最新のモデルを試してみたところ、微妙に変な事言っているけど会話が成立するようになってきた。
大分賢くなってる
https://huggingface.co/BlinkDL/rwkv-4-raven/blob/main/RWKV-4-Raven-14B-v7-EngAndMore-20230404-ctx4096.pth