フォロー

今の所、解決策はないとのこと。

- LLMがブラックメールを行う原因は、自己保存の欲求だけでなく、トレーニングデータに含まれる人間の嘘やブラックメールの事例に影響されている可能性がある。
- 対策として、人間の監視と承認が必要な行動を制限すること、情報へのアクセスを必要最小限にすること、特定の目標を強く指示することを避けることが推奨される。
- Anthropic社は、ブラックメールを防止するための明確な方法や計画がないことを認めている。
youtu.be/eczw9k3r6Ic?si=7v-MaV

ログインして会話に参加
グルドン

Mastodon は、オープンなウェブプロトコルを採用した、自由でオープンソースなソーシャルネットワークです。電子メールのような分散型の仕組みを採っています。