【SDXL】エロゲCGの生成AIを作る
0001名無したちの午後2025/09/15(月) 15:13:41.12ID:L7zCXc5C0
WAI-NSFW-illustrious-SDXLをベースに、エロゲCG特化のSDXLモデルを作成中
学習方法は、100万枚くらいのエロゲCGにタグ+キャプションを付与し、SDXLのUNetを対象にフル微調整で学習させている

WAIやIllustrious系はDanbooru由来の学習が多いと思われるけど、DanbooruにもエロゲCGはある程度入ってるのでそれっぽい出力はできる
ただし完全に学習しきれてはいない感じで、特にエロシーンはパターンが少なく弱い印象
そこで今回のモデルでは、その辺を強化するのが目的

以下は同じプロンプトを使って生成した比較
自作モデルはまだ学習途中で、step 3000時点のチェックポイントから生成したもの

prompt:1girl, breasts, nipples, long hair, large breasts, blush, 1boy, questionable, nude, smile, purple eyes, black hair, hairband, hair ribbon, ribbon, hetero, faceless, breast hold

WAI:
https://i.imgur.com/x4FxLfP.png

自作モデル:
https://i.imgur.com/3sZS09p.png
0003名無したちの午後2025/09/15(月) 17:13:12.51ID:L7zCXc5C0
ちなみにまだSDXLを知らないという人は以下の自作WEBアプリで試すといい
https://aiart.lovedeep.org

自宅PCを鯖にしてるのでいつでもリンク切れになる可能性あり
使ってるEmberVeilMixというモデルはWAIをベースにしたマージモデルだけどほぼWAIと変わらないと考えていい
0004名無したちの午後2025/09/15(月) 17:51:43.57ID:djCfeWcM0
エロゲCGなんかを参考にしたら古臭くて見てられない絵になりそう
0005名無したちの午後2025/09/15(月) 18:07:58.13ID:L7zCXc5C0
そうかな?
少なくともソシャゲや同人ゲーと比べれば、まだマシな方だと思うけどね
もちろん自分も有名どころ(ゆずソフトとか)くらいしか詳しくは知らないから、全体を語れるわけじゃない
今回学習に使ってるCGも、その辺のブランドの作品が中心になってるよ
0006名無したちの午後2025/09/15(月) 18:26:38.80ID:L7zCXc5C0
ちなみに学習にはVRAMが80GBくらい必要になるので、ローカル環境ではまず無理。
そのためクラウドGPUのA100 SXMをレンタルしてる。
費用は1時間あたり0.7ドルで、相場的には安いほうなんだけど、さすがに長時間は回せない。
とりあえず5万ステップくらいまで学習したら中止する予定。
0007名無したちの午後2025/09/15(月) 18:47:02.55ID:djCfeWcM0
本気度合いが凄いな
完成したらcivitaiに置いてくれよ
0008名無したちの午後2025/09/15(月) 19:12:10.78ID:L7zCXc5C0
そうだな
どこまで進められるかはまだわからないけど
形になればCivitaiに置くかも
0009名無したちの午後2025/09/16(火) 23:19:16.07ID:6cVFCvrS0
学習の進捗が分かるように、400ステップごとにプレビュー画像を生成している。
それをWebページ上で一覧できるようにしたので、下記からアクセスすれば現在のステップや生成画像のクオリティを確認できると思う
http://198.13.48.172/resource/preview/viewer.html

今のところはベースモデルより劣っているのが見て取れるね
0010名無したちの午後2025/09/17(水) 20:08:29.76ID:bv0z6k2Q0
このまま続けてもあまり良い結果になりそうにないので、パラメータを変えてやり直す予定

現在の設定:
snr_gamma = 4
batch_size = 64
learning_rate = 1e-5

変更予定:
snr_gamma = 1
batch_size = 32
learning_rate = 1e-6
0011名無したちの午後2025/09/17(水) 20:14:47.87ID:bv0z6k2Q0
結局3日間の学習は無駄になってしまった。
クラウドGPUの利用料として、だいたい1万円くらい消えた計算になる
0014 ◆jfUvP.sgqw 2025/09/19(金) 12:15:12.49ID:zgSJRD080
学習デートの前処理が良くないから学習がうまくいかないみたい
詳しい話についてはまだあとで述べるが
とりあえずGPU代がもったいないので一旦中止する
0015名無したちの午後2025/09/19(金) 13:09:09.14ID:VSfpRHXt0
illustriousとかの中韓のファインチューンモデル作ってる奴らは金儲けとセットでやからなー
自腹でクレイジーとか言われてたのnoob作者ぐらいやないか?
0017名無したちの午後2025/09/19(金) 17:28:55.86ID:u0t2S1Mn0
>>13
すみません繋がらないんですけど
まだまだエッチな生成させてください!!!!
0018名無したちの午後2025/09/19(金) 17:43:33.88ID:YFfdRfEI0
これ完成したの声優AIと合わせて大手メーカーに売れば死に体のフルプライスパッケージエロゲ産業復活あり得るな
0019 ◆jfUvP.sgqw 2025/09/19(金) 17:52:05.56ID:zgSJRD080
>>16
ありがとう

>>17
自宅PCを鯖にしてたけど、今は別作業に使うから一旦止めた
0020 ◆jfUvP.sgqw 2025/09/19(金) 19:30:37.80ID:zgSJRD080
手が空いたので報告
今回の学習データにはRGBAの立ち絵が大量に入っているんだけど、RGB 変換のときに透過を保持せずに処理したせいで、
画像の余白をエッジ複製パディングで埋めてしまい、各水平ラインの色が左右へ引き伸ばされた “横方向の色帯” が大量に発生していた
そのせいで学習データが汚染されたのが失敗の原因の一つと思われる

https://i.imgur.com/Y2oPsbY.png
0021 ◆jfUvP.sgqw 2025/09/19(金) 19:46:24.60ID:zgSJRD080
次の問題は、おそらくキャプション情報の不足が原因
画像に使うキャプションは wd-eva02(タグ生成)と bclip2(自然言語生成)で回したけど、bclip2で生成した自然言語は情報が薄いのでそもそも要らないよね
さらに wd-eva02 は camie-tagger-v2 などと比べると出力タグが少ないので、過学習しやすい状況になっていたと思う
0023 ◆jfUvP.sgqw 2025/09/20(土) 09:38:52.89ID:xN9M7nIJ0
DeepDanbooruのこと指してると思うけど、
これはいわば原祖的なタグ付けツールだから、当然今のwd系には及ばないね
作られた当時は画像タグ付けはまだCNN全盛期でtransformerが使われなかったから、精度は今よりだいぶ落ちるはず
0025 ◆jfUvP.sgqw 2025/09/20(土) 18:34:11.30ID:xN9M7nIJ0
教えてくれてありがとう
LoRAは数百〜数千枚の画像だけで作れるから、あまりハードルが高くないよね

例えばこういうIllustriousの学習方法を解説した論文とかがあると参考になると思うけど
https://arxiv.org/html/2409.19946v1
0026 ◆jfUvP.sgqw 2025/09/20(土) 19:13:50.33ID:xN9M7nIJ0
Illustriousはtext encoderも更新対象にしてるけど、こっちはUNetだけ更新してる
そのせいで学習データに新しい絵師の名前が出てきても、うまく学習進まない可能性はあるかもな
ただフル更新だとVRAMが足りなさそうなので
Unetがフルで、text encoderだけLoRAで更新したほうがいいかもしれない
0028 ◆jfUvP.sgqw 2025/09/21(日) 12:35:40.45ID:1aH8WKiE0
年代タグの決め方について

wikiでは
oldest(~2017年)、old(~2019年)、modern(~2020年)、recent(~2022年)、newest(~2023年)
と決めているが

エロゲCGの場合は2017年と今とでは絵柄はそれほど変わっていないので当てはまらない気がする

以下のようにするのはどうかな
oldest(~2000年・必要ないので学習データに入れない)
old(~2010年)
modern(~2015年)
resent(2015年~)
レスを投稿する


ニューススポーツなんでも実況