【SDXL】エロゲCGの生成AIを作る

79コメント27KB

【SDXL】エロゲCGの生成AIを作る

0001名無したちの午後

2025/09/15(月) 15:13:41.12ID:L7zCXc5C0

WAI-NSFW-illustrious-SDXLをベースに、エロゲCG特化のSDXLモデルを作成中
学習方法は、100万枚くらいのエロゲCGにタグ＋キャプションを付与し、SDXLのUNetを対象にフル微調整で学習させている

WAIやIllustrious系はDanbooru由来の学習が多いと思われるけど、DanbooruにもエロゲCGはある程度入ってるのでそれっぽい出力はできる
ただし完全に学習しきれてはいない感じで、特にエロシーンはパターンが少なく弱い印象
そこで今回のモデルでは、その辺を強化するのが目的

以下は同じプロンプトを使って生成した比較
自作モデルはまだ学習途中で、step 3000時点のチェックポイントから生成したもの

prompt:1girl, breasts, nipples, long hair, large breasts, blush, 1boy, questionable, nude, smile, purple eyes, black hair, hairband, hair ribbon, ribbon, hetero, faceless, breast hold

WAI:
https://i.imgur.com/x4FxLfP.png

自作モデル:
https://i.imgur.com/3sZS09p.png

0002名無したちの午後

2025/09/15(月) 15:32:26.31ID:L7zCXc5C0

nsfw規制でリンク切れのため、画像を別の鯖にアップした
http://198.13.48.172/resource/compare/

0003名無したちの午後

2025/09/15(月) 17:13:12.51ID:L7zCXc5C0

ちなみにまだSDXLを知らないという人は以下の自作WEBアプリで試すといい
https://aiart.lovedeep.org

自宅PCを鯖にしてるのでいつでもリンク切れになる可能性あり
使ってるEmberVeilMixというモデルはWAIをベースにしたマージモデルだけどほぼWAIと変わらないと考えていい

0004名無したちの午後

2025/09/15(月) 17:51:43.57ID:djCfeWcM0

エロゲCGなんかを参考にしたら古臭くて見てられない絵になりそう

0005名無したちの午後

2025/09/15(月) 18:07:58.13ID:L7zCXc5C0

そうかな？
少なくともソシャゲや同人ゲーと比べれば、まだマシな方だと思うけどね
もちろん自分も有名どころ（ゆずソフトとか）くらいしか詳しくは知らないから、全体を語れるわけじゃない
今回学習に使ってるCGも、その辺のブランドの作品が中心になってるよ

0006名無したちの午後

2025/09/15(月) 18:26:38.80ID:L7zCXc5C0

ちなみに学習にはVRAMが80GBくらい必要になるので、ローカル環境ではまず無理。
そのためクラウドGPUのA100 SXMをレンタルしてる。
費用は1時間あたり0.7ドルで、相場的には安いほうなんだけど、さすがに長時間は回せない。
とりあえず5万ステップくらいまで学習したら中止する予定。

0007名無したちの午後

2025/09/15(月) 18:47:02.55ID:djCfeWcM0

本気度合いが凄いな
完成したらcivitaiに置いてくれよ

0008名無したちの午後

2025/09/15(月) 19:12:10.78ID:L7zCXc5C0

そうだな
どこまで進められるかはまだわからないけど
形になればCivitaiに置くかも

0009名無したちの午後

2025/09/16(火) 23:19:16.07ID:6cVFCvrS0

学習の進捗が分かるように、400ステップごとにプレビュー画像を生成している。
それをWebページ上で一覧できるようにしたので、下記からアクセスすれば現在のステップや生成画像のクオリティを確認できると思う
http://198.13.48.172/resource/preview/viewer.html

今のところはベースモデルより劣っているのが見て取れるね

0010名無したちの午後

2025/09/17(水) 20:08:29.76ID:bv0z6k2Q0

このまま続けてもあまり良い結果になりそうにないので、パラメータを変えてやり直す予定

現在の設定：
snr_gamma = 4
batch_size = 64
learning_rate = 1e-5

変更予定：
snr_gamma = 1
batch_size = 32
learning_rate = 1e-6

0011名無したちの午後

2025/09/17(水) 20:14:47.87ID:bv0z6k2Q0

結局3日間の学習は無駄になってしまった。
クラウドGPUの利用料として、だいたい1万円くらい消えた計算になる

0012名無したちの午後

2025/09/17(水) 20:27:25.72ID:kbO2s6qw0

最近のAIすごいな
https://i.imgur.com/CJcNJhl.jpeg

0013名無したちの午後

2025/09/17(水) 20:39:23.05ID:bv0z6k2Q0

>>12
そうですね
特にWAIなどは絵師の絵柄も学習しているのでartistの名前を指定するとその絵師が描いたような絵も作れる

無料で利用できるアプリを作ったのでよかったら試してみてください
https://aiart.lovedeep.org

https://i.imgur.com/Z9eslpd.jpeg
https://i.imgur.com/ejuTGzv.jpeg

0014 ◆jfUvP.sgqw

2025/09/19(金) 12:15:12.49ID:zgSJRD080

学習デートの前処理が良くないから学習がうまくいかないみたい
詳しい話についてはまだあとで述べるが
とりあえずGPU代がもったいないので一旦中止する

0015名無したちの午後

2025/09/19(金) 13:09:09.14ID:VSfpRHXt0

illustriousとかの中韓のファインチューンモデル作ってる奴らは金儲けとセットでやからなー
自腹でクレイジーとか言われてたのnoob作者ぐらいやないか？

0016名無したちの午後

2025/09/19(金) 14:17:53.84ID:cnYx2ctg0

>>14
お疲れ

0017名無したちの午後

2025/09/19(金) 17:28:55.86ID:u0t2S1Mn0

>>13
すみません繋がらないんですけど
まだまだエッチな生成させてください！！！！

0018名無したちの午後

2025/09/19(金) 17:43:33.88ID:YFfdRfEI0

これ完成したの声優AIと合わせて大手メーカーに売れば死に体のフルプライスパッケージエロゲ産業復活あり得るな

0019 ◆jfUvP.sgqw

2025/09/19(金) 17:52:05.56ID:zgSJRD080

>>16
ありがとう

>>17
自宅PCを鯖にしてたけど、今は別作業に使うから一旦止めた

0020 ◆jfUvP.sgqw

2025/09/19(金) 19:30:37.80ID:zgSJRD080

手が空いたので報告
今回の学習データにはRGBAの立ち絵が大量に入っているんだけど、RGB 変換のときに透過を保持せずに処理したせいで、
画像の余白をエッジ複製パディングで埋めてしまい、各水平ラインの色が左右へ引き伸ばされた “横方向の色帯” が大量に発生していた
そのせいで学習データが汚染されたのが失敗の原因の一つと思われる

https://i.imgur.com/Y2oPsbY.png

0021 ◆jfUvP.sgqw

2025/09/19(金) 19:46:24.60ID:zgSJRD080

次の問題は、おそらくキャプション情報の不足が原因
画像に使うキャプションは wd-eva02（タグ生成）と bclip2（自然言語生成）で回したけど、bclip2で生成した自然言語は情報が薄いのでそもそも要らないよね
さらに wd-eva02 は camie-tagger-v2 などと比べると出力タグが少ないので、過学習しやすい状況になっていたと思う

0022名無したちの午後

2025/09/20(土) 05:36:31.86ID:MjWdbtXN0

deepbooruはどう？

0023 ◆jfUvP.sgqw

2025/09/20(土) 09:38:52.89ID:xN9M7nIJ0

DeepDanbooruのこと指してると思うけど、
これはいわば原祖的なタグ付けツールだから、当然今のwd系には及ばないね
作られた当時は画像タグ付けはまだCNN全盛期でtransformerが使われなかったから、精度は今よりだいぶ落ちるはず

0024名無したちの午後

2025/09/20(土) 18:11:22.57ID:1ROp/ixg0

ここの住人はLoraとか気軽に作ってるし学習方法に詳しいはず
なんJNVA部★578
https://fate.5ch.net/test/read.cgi/liveuranus/1758357922/

0025 ◆jfUvP.sgqw

2025/09/20(土) 18:34:11.30ID:xN9M7nIJ0

教えてくれてありがとう
LoRAは数百～数千枚の画像だけで作れるから、あまりハードルが高くないよね

例えばこういうIllustriousの学習方法を解説した論文とかがあると参考になると思うけど
https://arxiv.org/html/2409.19946v1

0026 ◆jfUvP.sgqw

2025/09/20(土) 19:13:50.33ID:xN9M7nIJ0

Illustriousはtext encoderも更新対象にしてるけど、こっちはUNetだけ更新してる
そのせいで学習データに新しい絵師の名前が出てきても、うまく学習進まない可能性はあるかもな
ただフル更新だとVRAMが足りなさそうなので
Unetがフルで、text encoderだけLoRAで更新したほうがいいかもしれない

0027 ◆jfUvP.sgqw

2025/09/21(日) 12:11:51.70ID:1aH8WKiE0

以下のwikiは参考になった
https://seesaawiki.jp/nai_ch/d/illustrious_xl_01tips

0028 ◆jfUvP.sgqw

2025/09/21(日) 12:35:40.45ID:1aH8WKiE0

年代タグの決め方について

wikiでは
oldest(~2017年)、old(~2019年)、modern(~2020年)、recent(~2022年)、newest(~2023年)
と決めているが

エロゲCGの場合は2017年と今とでは絵柄はそれほど変わっていないので当てはまらない気がする

以下のようにするのはどうかな
oldest(~2000年・必要ないので学習データに入れない)
old(~2010年)
modern(~2015年)
resent(2015年~)

新着レスの表示

レスを投稿する