- **従来のAIベンチマークの限界**:
- コーディングコンペでの上位入賞など、特定のタスクに特化したベンチマークは、実際の社会での有用性とは必ずしも一致しない。
- 会社での業務に使えるレベルには達していないという現場の声がある。
- **METR(モデルエバリューション&サーチ)の提案**:
- 人間の専門家が通常かかる時間で測られるタスクのうち、AIが50%の確率で完了できるタスクの長さを指標
- AIのタスク時間ホライゾンは指数関数的に成長
- 論理的思考力の向上、ツール仕様の改善(PythonやBashなどの利用)、失敗からの回復力の向上、状況認識の改善、自分の限界やタスク要求の理解。
https://youtu.be/rEV9eCwHEEc?si=mdHzXtCsWHjRvpK9