https://x.com/kmizu/status/1821168979043631530?t=bHITtdpaYmtROgpxkgLTyw&s=09
LLMの誤答を防ぐための「自信がないことは回答を拒否して」てプロンプト、知ってる人は知ってる気がするんですが、これが割と機能する理由ってちょっと疑問なんですよね。自信がないと「自覚」してるなら最初から抑制してよ、みたいな。
素人ながら推測すると、現行のLLMは「自信がないことは控えめに言う」という一般的な規範を獲得してない(そのようなアライメントがされていない)ので、自信がないことも自信まんまんに見える口調で断言するのかなと。