物語を書くのはいいかもしれないけど、難しいAIコーディングや数学は、ローカルLLMだと厳しいかもしれないね。
* **Simple Math Benchmark**:
* Llama 3.2 1 billion: 18正解, 12不正解 * Llama 3.2 3 billion: 高い精度 * Falcon 3 54: 全て正解 * Qwen 2.5 coder 32 billion: いくつか間違いあり
* **Typer Command Benchmark (難易度の高いタスク)**: *
ほとんどのローカルモデルが0%の精度 * Deepseek V3: 26%の精度