Stable Diffusion

生成系AIでよく使われているライブラリStable Diffusionを動かそうと試みました。

https://github.com/CompVis/stable-diffusion

結果から言うと、ビルドはできましたが実行時にメモリ不足で動きませんでした。
(WindowsのノートPCですが、メモリ16GBにGeforceも対応しているので大丈夫だと思っていたのですが)

https://github.com/CompVis/stable-diffusion/issues/86
上記を参考にtxt2img.pyのパラメータ変えたり、コードに手を入れたりしましたが、うまくいかずコメントにもある下記サイトで実行しました。
https://huggingface.co/spaces/stabilityai/stable-diffusion

一応、試した操作を書き残しておきます。

Anaconda環境で、

conda env create -f environment.yaml
conda activate ldm

sd-v1-4.ckpt(4GB)をダウンロードしてきたものを下記に配置
models\ldm\stable-diffusion-v1\model.ckpt

ビルドにはかなり時間がかかります。画面が真っ黒になるときもありますが、我慢強く待ちます。
そしてテキストをpromptに記述して実行します。

python scripts\txt2img.py –prompt “a photograph of an astronaut riding a horse” –plms

私の環境では、transformer関連でエラーが出たため下記を実行しました。

conda install -c conda-forge transformers
pip install -U transformers

初回実行時も、かなり時間がかかります。HD容量も20GBくらい消費するかもしれません。

txt2img以外試していませんが、またなにか解決策が見つかったら継続したいと思います。
あとこれを利用したサービスとして下記もあります。

https://www.mage.space/

text to imageだけでなく、image to imageも対応しています。

前回のChatGPTでもTransformerは使われているということですが、この分野で注目の深層学習モデルということがわかります。