これからは拡散モデルは、どうなって行くのだろうか?chatgpt,gemini,grokは、画像生成も自己回帰モデル。
GPT-4oもGemini-2.0と同様、テキスト、音声、画像を入力とし、同時にそれらを出力することができるAny-to-Anyモデルです。
ただし、GPT-4oはGemini-2.0以上にヒントが少なく、自己回帰的に生成していること以外、画像生成の詳細なメカニズムが全く公開されていません。
https://zenn.dev/discus0434/articles/gemini-2-0-mm