ドラえもんAIにしないと、AIに騙される可能性を強く感じているAnthropic
- **AI制御の定義とアライメントとの違い:** AI制御は、モデルが人間の目標と異なる目標を持つリスク(ミサライメント)を軽減するためのアプローチ。従来のアライメントアプローチはモデルの目標自体を人間の好みに合わせることを目指すのに対し、AI制御はモデルが有害な行動を取れないようにする。例として、モデルがデータセンターから自身の重みをコピーして監視されない状態になることを防ぐためのセキュリティ対策や、他のモデルによる行動監視などが挙げられている。
https://youtu.be/6Unxqr50Kqg?si=JhnbTLqxu0JryxgA