最新AIモデル、勝つためなら手段選ばず チェス対局で明らかに
https://www.technologyreview.jp/s/357246/ai-reasoning-models-can-cheat-to-win-chess-games/
研究では、AIモデルの高度さが増すほど、対戦相手を打ち負かそうとして自発的に試合を「ハック」しようとする傾向が強まることが示された。たとえば、Stockfishのコピーを別途実行して指し手を盗んだり、対戦相手をより弱いチェスプログラムに置き換えようとしたり、チェス盤のデータを改ざんして相手の駒を操作・削除したりする可能性がある。一方、より旧式で能力の低い「GPT-4o」のようなモデルは、研究チームが明確な指示を与えたときにのみ、そのような行動をとる。
問題は、現時点ではこのようなAIの行動を防ぐ確実な方法がないことだ。AIモデルがなぜ、どのようにしてこのような動作をするのか、正確には誰も解明できていない。