【SDXL】エロゲCGの生成AIを作る
WAI-NSFW-illustrious-SDXLをベースに、エロゲCG特化のSDXLモデルを作成中 学習方法は、100万枚くらいのエロゲCGにタグ+キャプションを付与し、SDXLのUNetを対象にフル微調整で学習させている WAIやIllustrious系はDanbooru由来の学習が多いと思われるけど、DanbooruにもエロゲCGはある程度入ってるのでそれっぽい出力はできる ただし完全に学習しきれてはいない感じで、特にエロシーンはパターンが少なく弱い印象 そこで今回のモデルでは、その辺を強化するのが目的 以下は同じプロンプトを使って生成した比較 自作モデルはまだ学習途中で、step 3000時点のチェックポイントから生成したもの prompt:1girl, breasts, nipples, long hair, large breasts, blush, 1boy, questionable, nude, smile, purple eyes, black hair, hairband, hair ribbon, ribbon, hetero, faceless, breast hold WAI: https://i.imgur.com/x4FxLfP.png 自作モデル: https://i.imgur.com/3sZS09p.png ちなみにまだSDXLを知らないという人は以下の自作WEBアプリで試すといい https://aiart.lovedeep.org 自宅PCを鯖にしてるのでいつでもリンク切れになる可能性あり 使ってるEmberVeilMixというモデルはWAIをベースにしたマージモデルだけどほぼWAIと変わらないと考えていい エロゲCGなんかを参考にしたら古臭くて見てられない絵になりそう そうかな? 少なくともソシャゲや同人ゲーと比べれば、まだマシな方だと思うけどね もちろん自分も有名どころ(ゆずソフトとか)くらいしか詳しくは知らないから、全体を語れるわけじゃない 今回学習に使ってるCGも、その辺のブランドの作品が中心になってるよ ちなみに学習にはVRAMが80GBくらい必要になるので、ローカル環境ではまず無理。 そのためクラウドGPUのA100 SXMをレンタルしてる。 費用は1時間あたり0.7ドルで、相場的には安いほうなんだけど、さすがに長時間は回せない。 とりあえず5万ステップくらいまで学習したら中止する予定。 本気度合いが凄いな 完成したらcivitaiに置いてくれよ そうだな どこまで進められるかはまだわからないけど 形になればCivitaiに置くかも 学習の進捗が分かるように、400ステップごとにプレビュー画像を生成している。 それをWebページ上で一覧できるようにしたので、下記からアクセスすれば現在のステップや生成画像のクオリティを確認できると思う http://198.13.48.172/resource/preview/viewer.html 今のところはベースモデルより劣っているのが見て取れるね このまま続けてもあまり良い結果になりそうにないので、パラメータを変えてやり直す予定 現在の設定: snr_gamma = 4 batch_size = 64 learning_rate = 1e-5 変更予定: snr_gamma = 1 batch_size = 32 learning_rate = 1e-6 結局3日間の学習は無駄になってしまった。 クラウドGPUの利用料として、だいたい1万円くらい消えた計算になる >>12 そうですね 特にWAIなどは絵師の絵柄も学習しているのでartistの名前を指定するとその絵師が描いたような絵も作れる 無料で利用できるアプリを作ったのでよかったら試してみてください https://aiart.lovedeep.org https://i.imgur.com/Z9eslpd.jpeg https://i.imgur.com/ejuTGzv.jpeg 学習デートの前処理が良くないから学習がうまくいかないみたい 詳しい話についてはまだあとで述べるが とりあえずGPU代がもったいないので一旦中止する illustriousとかの中韓のファインチューンモデル作ってる奴らは金儲けとセットでやからなー 自腹でクレイジーとか言われてたのnoob作者ぐらいやないか? >>13 すみません繋がらないんですけど まだまだエッチな生成させてください!!!! これ完成したの声優AIと合わせて大手メーカーに売れば死に体のフルプライスパッケージエロゲ産業復活あり得るな >>16 ありがとう >>17 自宅PCを鯖にしてたけど、今は別作業に使うから一旦止めた 手が空いたので報告 今回の学習データにはRGBAの立ち絵が大量に入っているんだけど、RGB 変換のときに透過を保持せずに処理したせいで、 画像の余白をエッジ複製パディングで埋めてしまい、各水平ラインの色が左右へ引き伸ばされた “横方向の色帯” が大量に発生していた そのせいで学習データが汚染されたのが失敗の原因の一つと思われる https://i.imgur.com/Y2oPsbY.png 次の問題は、おそらくキャプション情報の不足が原因 画像に使うキャプションは wd-eva02(タグ生成)と bclip2(自然言語生成)で回したけど、bclip2で生成した自然言語は情報が薄いのでそもそも要らないよね さらに wd-eva02 は camie-tagger-v2 などと比べると出力タグが少ないので、過学習しやすい状況になっていたと思う DeepDanbooruのこと指してると思うけど、 これはいわば原祖的なタグ付けツールだから、当然今のwd系には及ばないね 作られた当時は画像タグ付けはまだCNN全盛期でtransformerが使われなかったから、精度は今よりだいぶ落ちるはず 教えてくれてありがとう LoRAは数百〜数千枚の画像だけで作れるから、あまりハードルが高くないよね 例えばこういうIllustriousの学習方法を解説した論文とかがあると参考になると思うけど https://arxiv.org/html/2409.19946v1 Illustriousはtext encoderも更新対象にしてるけど、こっちはUNetだけ更新してる そのせいで学習データに新しい絵師の名前が出てきても、うまく学習進まない可能性はあるかもな ただフル更新だとVRAMが足りなさそうなので Unetがフルで、text encoderだけLoRAで更新したほうがいいかもしれない 年代タグの決め方について wikiでは oldest(~2017年)、old(~2019年)、modern(~2020年)、recent(~2022年)、newest(~2023年) と決めているが エロゲCGの場合は2017年と今とでは絵柄はそれほど変わっていないので当てはまらない気がする 以下のようにするのはどうかな oldest(~2000年・必要ないので学習データに入れない) old(~2010年) modern(~2015年) resent(2015年~)
read.cgi ver 09.0h [pink] - 2025/10/27 Walang Kapalit ★ | uplift ★ 5ちゃんねる