フォロー

強化学習(RL)の持続的成功と報酬モデルの心得

RLは、AIが「試行錯誤しながら学ぶ」方法で、ゲームで言うと「報酬をもらえる行動を繰り返す」みたいな感じ。OpenAIでは、o1モデルが出てから、RLがどんどん進化して、毎月のように新しい成果を出してるんです。みんな「もうRLは頭打ちになるはず」って思ってたけど(例: 評価テストが飽和する、データが合成すぎて崩れる、など)、そんな懸念が次々外れてる。

2年前は「ファインチューニングデータセット(AIの学習データ)をどう作るか」でみんな悩んでたけど、今はもっとシンプルになってる。

生物学者や物理学者がRLを試すなら、「試行錯誤のツール」として気軽にスタート。報酬を「正解/不正解」じゃなく、「人間のフィードバックに近づける(初心者には「AIに褒め方・叱り方を教える」イメージ)」視点で考える。
youtu.be/KSgPNVmZ8jQ?si=Do42p6

ログインして会話に参加
グルドン

Mastodon は、オープンなウェブプロトコルを採用した、自由でオープンソースなソーシャルネットワークです。電子メールのような分散型の仕組みを採っています。