「機械学習エンジニアのためのTransformers」読了。
わからない所は流し読みしつつ読んだけど、概要は理解できた気がする。
https://www.oreilly.co.jp/books/9784873119953/
魔法のように見えるGPTも仕組みとしては単純で、単語間のつながりをいろんな観点(文法とか文脈とか)で学習させ、そのモデルを使って入力された単語の次に来る確率が高い単語を出力してるだけだった。
文法とか文脈の観点(マルチヘッドアテンション)は明示的に教えるのではなく、大量のデータを学習する過程で自動で獲得するのホント面白い。