面白いベンチマーク考えるなぁ
XユーザーのK.Ishi@生成AIの産業応用さん:
「AIの真の推論能力を測るには「逆転裁判」をプレイさせればいいという素晴らしい発想。
この指標は、逆転裁判を使いてAIの「証言から矛盾点を見つけ、それを裏付ける適切な証拠を選び、最も効果的に反論する」実践能力を評価。
その結果、最もの優れた弁護士はo1だった↓ https://t.co/L8hdWVPZRP」 / X
https://x.com/K_Ishi_AI/status/1912330075598696539