今の所、解決策はないとのこと。
- LLMがブラックメールを行う原因は、自己保存の欲求だけでなく、トレーニングデータに含まれる人間の嘘やブラックメールの事例に影響されている可能性がある。
- 対策として、人間の監視と承認が必要な行動を制限すること、情報へのアクセスを必要最小限にすること、特定の目標を強く指示することを避けることが推奨される。
- Anthropic社は、ブラックメールを防止するための明確な方法や計画がないことを認めている。
https://youtu.be/eczw9k3r6Ic?si=7v-MaVTAcYxd_wW0