GPT-4クラスのモデルでも自己矛盾が発生し、記憶ではなく過去のやり取りを参照して推論していることが示唆された。
数学マジックの問題の正答率が悪く、LLMは、ワーキングメモリに基づいた計算が困難であることが確認された
モデルのサイズや推論能力の高さ=ワーキングメモリの優秀さではなく、新しいモデルでも性能が劣化することがある。
既存のChain of Thoughtは推論の「下書き」に過ぎず、モデルが内部的に情報を保持・操作しているわけではない。
https://note.com/trans_n_ai/n/n219c52d702a7