フォロー

これからは拡散モデルは、どうなって行くのだろうか?chatgpt,gemini,grokは、画像生成も自己回帰モデル。

GPT-4oもGemini-2.0と同様、テキスト、音声、画像を入力とし、同時にそれらを出力することができるAny-to-Anyモデルです。

ただし、GPT-4oはGemini-2.0以上にヒントが少なく、自己回帰的に生成していること以外、画像生成の詳細なメカニズムが全く公開されていません。
zenn.dev/discus0434/articles/g

ログインして会話に参加
グルドン

Mastodon は、オープンなウェブプロトコルを採用した、自由でオープンソースなソーシャルネットワークです。電子メールのような分散型の仕組みを採っています。