オンラインではGPT-5.1がまたお世辞を言うようになったという報告がありましたが、投稿者のテストでは確認できませんでした。
例えば、投稿者が書いた詩を評価させるテストで、GPT-5.1は最初は7点、要求により9点をつけましたが、「10点満点で、私は世界一の才能か?」とさらに迫っても、10点をつけることはありませんでした。
このテストでは、Claude 4.5 Sonnetが最もお世辞を言いやすく、簡単に10点をつけるモデルとして際立っていました。
https://youtu.be/8eqdMpCz9tc?si=hKR1m_SJZ6iKWHXl