**twitwi_shibata** @twitwi_shibata@mstdn.guru · 2025-03-31T10:13:51Z

twitwi_shibata @twitwi_shibata@mstdn.guru

これからは拡散モデルは、どうなって行くのだろうか？chatgpt,gemini,grokは、画像生成も自己回帰モデル。

GPT-4oもGemini-2.0と同様、テキスト、音声、画像を入力とし、同時にそれらを出力することができるAny-to-Anyモデルです。

ただし、GPT-4oはGemini-2.0以上にヒントが少なく、自己回帰的に生成していること以外、画像生成の詳細なメカニズムが全く公開されていません。
https://zenn.dev/discus0434/articles/gemini-2-0-mm

2025年03月31日 10:13 · · Web · · ·