フォロー

GPT-3は、基本的に「次に来る言葉を予測する」機能しかなかった。

次に、人間のラベラーと呼ばれる人たちに、さまざまなユーザーの質問やプロンプトに対する「理想的な応答」を書いてもらい、データセットとした。

このデータを使って、1.3億パラメータの小さいモデルにしたGPT-3モデルをfine-tuneした。会話のような質問と回答のペアをモデルに繰り返し見せて、「このパターンで応答するように」訓練したところ、急速に「会話型」になり、ユーザーの指示に沿った役立つ応答をする新GPT-3ができた。

別途、ラベラーによりモデルが出した複数の応答を比べて「これが一番良い(役立つ、真実っぽい、有害じゃない)」とランキング付けしたデータを作成し、強化学習で人間好みが最大化するように、新GPT-3を学習させたら、人間らしいアシスタントになり、嘘を減らし、有害な内容を避け、ユーザーの意図をより正確に汲み取る新・新GPT-3になった。

ログインして会話に参加
グルドン

Mastodon は、オープンなウェブプロトコルを採用した、自由でオープンソースなソーシャルネットワークです。電子メールのような分散型の仕組みを採っています。