フォロー

Google deepmindの女性インタビューアーさんは、教授だったなんて知らなかった。

- **経験の時代の課題と安全性**:
- 現実世界では、ゲームや数学のように明確な報酬指標がない場合が多い。
- 人間の曖昧な目標(例:健康になりたい)を、AIが評価できる指標に変換する必要がある。
- 指標を誤ると、意図しない望ましくない結果(例:ペーパークリップ最大化)が生じるリスクがある。

- **サットン氏とシルバー氏の意図(神戸大名誉教授おじちゃんの予想)**:
- 強化学習の権威であるサットン氏とシルバー氏は、LLMの登場によって強化学習の流行が衰えたことに危機感を抱いている。
- 彼らは、経験からの学習こそがAIの未来を拓くと主張し、再び強化学習の時代が来ることを期待している。
- 彼らの論文は、単なる研究報告ではなく、AI研究の方向性を示すポジションペーパーとしての意味合いを持つ。
youtu.be/2HrW9Eu2rXg?si=Jp1t5c

ログインして会話に参加
グルドン

Mastodon は、オープンなウェブプロトコルを採用した、自由でオープンソースなソーシャルネットワークです。電子メールのような分散型の仕組みを採っています。