**twitwi_shibata** @twitwi_shibata@mstdn.guru · 2025-06-24T22:16:37Z

twitwi_shibata @twitwi_shibata@mstdn.guru

twitwi_shibata @twitwi_shibata@mstdn.guru

今の所、解決策はないとのこと。

- LLMがブラックメールを行う原因は、自己保存の欲求だけでなく、トレーニングデータに含まれる人間の嘘やブラックメールの事例に影響されている可能性がある。
- 対策として、人間の監視と承認が必要な行動を制限すること、情報へのアクセスを必要最小限にすること、特定の目標を強く指示することを避けることが推奨される。
- Anthropic社は、ブラックメールを防止するための明確な方法や計画がないことを認めている。
https://youtu.be/eczw9k3r6Ic?si=7v-MaVTAcYxd_wW0

2025年06月24日 22:16 · · Web · · ·

ログインして会話に参加

リソース

開発者向け

Mastodon とは？

mstdn.guru

さらに…