**twitwi_shibata** @twitwi_shibata@mstdn.guru · 2025-10-19T04:56:53Z

twitwi_shibata @twitwi_shibata@mstdn.guru

twitwi_shibata @twitwi_shibata@mstdn.guru

GPT-3は、基本的に「次に来る言葉を予測する」機能しかなかった。

次に、人間のラベラーと呼ばれる人たちに、さまざまなユーザーの質問やプロンプトに対する「理想的な応答」を書いてもらい、データセットとした。

このデータを使って、1.3億パラメータの小さいモデルにしたGPT-3モデルをfine-tuneした。会話のような質問と回答のペアをモデルに繰り返し見せて、「このパターンで応答するように」訓練したところ、急速に「会話型」になり、ユーザーの指示に沿った役立つ応答をする新GPT-3ができた。

別途、ラベラーによりモデルが出した複数の応答を比べて「これが一番良い（役立つ、真実っぽい、有害じゃない）」とランキング付けしたデータを作成し、強化学習で人間好みが最大化するように、新GPT-3を学習させたら、人間らしいアシスタントになり、嘘を減らし、有害な内容を避け、ユーザーの意図をより正確に汲み取る新・新GPT-3になった。

2025年10月19日 04:56 · · Web · · ·

ログインして会話に参加

リソース

開発者向け

Mastodon とは？

mstdn.guru

さらに…