ふむふむ RT
「音楽を含む音声はスペクトログラム画像に変換できる→Stable Diffusion(アルゴリズムは無改造)にスペクトログラム画像を追加学習させる→スペクトログラムをテキストから画像生成させる→その画像を音声に戻したら音楽になる!」って、確かに言われてみれば理屈はわかるけど、マジかよ……… https://t.co/fOkJOnLdFK
https://twitter.com/needle/status/1603420003352838144
SD自体はあくまで画像を生成してるだけなので、img2img・インペインティング・ネガティブプロンプト・潜在空間内の遷移などなど普段のSDで使えるテクニックは全部使える。ヤベェ。