【画像生成AI】Stable DiffusionによるCGアバターの置き換え
May 16, 2023
こんにちは!オムニスCGチームのリードデザイナー、牛山です。
私たちは、アパレルのためのCG制作に日々取り組んでいます。今日は3DCGと画像生成AIを使ったちょっとしたチャレンジを皆さんと一緒にしてみたいと思います。
アパレルCGとデジタルヒューマン
デジタルヒューマン(人間と見間違えるほどリアルなCGアバター)の制作は、2023年現在でもなお大きな壁があります。人の顔というのは非常に複雑で、微妙な表情や肌の質感をCGで再現するのは至難の業です。
そのため、これらの制作は、一部の卓越したアーティストや大規模なCGプロダクションの手に委ねられることが多いのが現状です。
アパレル業界では、CGで描かれる服は見事にリアルなのに、アバターはまだまだ不自然さが残っています。そのため、アバターとしてはCGのマネキンを使ったり、人物自体を非表示にしたりすることがよくあります。
もし画像生成AIにより、フォトリアルなアバターが手軽に作れるようになれば、アパレル用CGの表現がより一層進化するでしょう。
CLO Virtual Fashion, Inc. owns all rights to the avatar displayed.
今日やる事
弊社のブログでは、よくMidjourneyを使っていますが、今回は別系統の画像生成AI、StableDiffusionを使っていきます。
よく比較に上がる両者ですが、もっとも大きな違いは、StableDiffusionではどの領域の画像生成を行うのかの指定や、豊富なパラメータによるコントロールが自由にできます。そのため、デザイナーがPhotoshopでフィルターをかけるような使い方が出来るというメリットがあります。
それでは、今日は弊社のデジタルヒューマン、まだ名前のない「例のパーマの子」と呼ばれているこの子を使います。見た目は「リアル寄り」ですが、まだCG感が感じられますね。
ではさっそく、画像生成AIを使用して、彼女を写真のようにリアルに変身させることにします!
検証1:初期値での生成
StableDiffusionの特徴の一つに、マスク素材をアップロードできる事が挙げられます。 この場合は、左の画像の顔と髪の部分だけを、AIで変換します。 マスク素材は3DCGでは簡単に出せるので、相性が良いと思います。
各種パラメータは初期設定を使います。 プロンプトには”Photo”とだけ入力して、生成してみましょう!
あれ…?思ったよりリアルじゃありませんね。…むしろ不気味です。 リアルにしたいのに、元画像の3DCGに引っ張られている気がします。 誘導するために、ネガティブプロンプトに”3DCG”を追加してみたいと思います。
リアルになりましたが、今度は、顔の向きが変わってしまいマスク素材で切り取られてしまっています。
それでは、より理解を深めるためにパラメータを見ていきましょう。
検証2 パラメータ調整
StableDiffusionの今回の検証で使うパラメータは以下の2つです。
- CFG Scale(以下CFG): 高いとプロンプトに忠実になる半面、歪になる可能性があります。
デフォルト:7(1~30) - Denoising Strength(以下Denoise): 高いと元の画像から離れていきます。
デフォルト:0.75(0~1.0)
まずはプロンプトは無視して、Denoiseの違いを比較します。0.3になる事でかなり柔らかい質感になっている事が分かるでしょうか? しかし、まだCG感が出ています。ここでプロンプトに忠実になるようにCFGを調整してみましょう。
いかがでしょうか?かなりフォトリアルになったのが分かるかと思います。 柔らかいだけでなく、ちょっとしたシワや肌色のムラが足されています。それでいて、照明の方向などは合っているのでCGとも違和感がない形で合成されました。 また、涼しげな目元など元の人物の特徴が出ている気がします。
こちらは同じパラメータの画像ですが、よく見ると顔立ちが少し違いますね。 ちょっとした違いではありますが、こちらの方が少し古い時代の人の印象があります(勝手なイメージですが…) このように必ずしも同一人物にならないので、画像生成AIではよく「ガチャを引く」というフレーズがあります。
では、さらにCFGとDenoiseを上げていきます。どうなるでしょうか?
さらにリアル度が上がりました。そして目線がバラバラになり、パーマのちぢれ具合もバリエーションが出てきています。これがDenoiseによる元の画像との差異になります。
すでに十分リアルですが、もう一歩踏み込んでみましょう。
やりすぎてしまいましたね! ディティールがつきすぎ=シワが増えすぎたり、顔が崩れてしまいました。 CFGとDenoiseの関係性がお分かり頂けたかと思います。 また、この間、パラメータを調整しただけなので、わずか1時間程度でここまでのクオリティに辿り着きました。
まとめ
いかがでしたでしょうか。画像生成AIの力により、驚くほど簡単にフォトリアルな人物を作成することができました。元のCGアバターの雰囲気もある程度踏まえています。
これにより、アパレル企業内部でのデザイン検討だけに使われていたシンプルなアバターが、ECサイトの消費者向けのリッチな広告にも活用できるようになりました。
しかしながら、元の人物の特徴を完全に再現しようとすると、フォトリアルさを犠牲にしなくてはならないジレンマがあります。これを克服するためには、次回はStableDiffusionのControlNet機能を使用し、元のアバターの特徴を残しつつも大胆な改変を行ってみる予定です。