**twitwi_shibata** @twitwi_shibata@mstdn.guru · 2024-12-07T00:15:08Z

twitwi_shibata @twitwi_shibata@mstdn.guru

OpenAIの今日の発表の方が、ワクワクするけどなぁ。

だって、計算生物学者さんも発表しているし、モデルに入力を模倣させるのではなく、
強化学習ファインチューニングと呼ばれる、推論することを教えられる話だよ。問題を考え抜かせて、最終的な答えを評価し、強化学習の力を利用して正しい答えにつながった思考を強化し、間違った答えにつながった思考を抑制するんだよ。

2024年12月07日 00:15 · · Web · · ·