GPT-3は、基本的に「次に来る言葉を予測する」機能しかなかった。
次に、人間のラベラーと呼ばれる人たちに、さまざまなユーザーの質問やプロンプトに対する「理想的な応答」を書いてもらい、データセットとした。
このデータを使って、1.3億パラメータの小さいモデルにしたGPT-3モデルをfine-tuneした。会話のような質問と回答のペアをモデルに繰り返し見せて、「このパターンで応答するように」訓練したところ、急速に「会話型」になり、ユーザーの指示に沿った役立つ応答をする新GPT-3ができた。
別途、ラベラーによりモデルが出した複数の応答を比べて「これが一番良い(役立つ、真実っぽい、有害じゃない)」とランキング付けしたデータを作成し、強化学習で人間好みが最大化するように、新GPT-3を学習させたら、人間らしいアシスタントになり、嘘を減らし、有害な内容を避け、ユーザーの意図をより正確に汲み取る新・新GPT-3になった。