【何が不得意？】Midjourney / describeでファッション画像を生成する際の注意点

Jul 07, 2023

はじめに

こんにちは。CGチームの永島です。

前回のブログ『【神機能が登場】Midjourney / describeの基本的な使い方』では、Midjourneyの「/describe」機能の基本的な使い方について解説しました。

今回はその一歩先に進み、「/describe」機能を使ったファッション画像生成のポイントと、その際に注意すべき事項について詳しく解説したいと思います。（前回のブログはMidjourney v5で行った検証でしたが、2023年7月7日現在 v5.2までVersionが展開されているので、v5.2だとどうなるかや、現状の機能を使った検証もあわせて行ってみたいと思います）

describe機能の利点や強み

「/describe」は、画像の内容を解析しそれに基づいたプロンプトを生成します。ユーザーが画像をどのように言語化すべきかを理解する手助けとなり、AIの独自解析により新たな視点や表現を提供します。さらに、多様なプロンプト生成によりユーザーは画像を多面的に見る機会を得ることができます。AIによる画像の言語化はこの機能の大きな利点です。

describe機能の活用方法

「/describe」は複雑な画像の言語化に利用可能で、AIの解析結果は参考として活用できます。複数のプロンプトを比較することで、各プロンプトがどの特徴を強調しているか理解し、それを用いてより精緻なプロンプトを作成できます。さらに、自身の意図を加えたカスタムプロンプトの作成にも利用でき、自己の視点を保ちつつAIを活用することができます。

今回は、その「/describe」機能を用いて生成されたプロンプトの不完全さや限界についてみていきたいと思います。

describe機能が抱える制約とは

「/describe」は、一見すると万能のように思えますが、実際には一部の領域でいくつかの課題があります。そのため、この機能の限界が何かを理解し、それを補完または改善するための手法を模索する必要があります。そのなかでも私が一番課題だと感じているのは、以下です。

見慣れないデザインや特殊なデザインを指定したい場合、期待したようなデザインの画像生成が難しい

特殊なデザインの場合、期待する画像結果が出ないことが多いです。実際に以下の画像を使って「/describe」で画像生成してみましょう。

肩や胸元がばっくり空いたカットアウトデザインの画像を「/describe」に投げてみます。カットアウトデザインが画像にどのように反映されるか、v5とv5.2それぞれで検証してみます。

まずは、v5 で検証してみます

v5では、生成された画像結果にカットアウトのデザインは反映されませんでした。胸元のレースや肩や脇のあきを見ると反映しようとAIが頑張っているようには感じます。

v5.2 だとどうなるか見てみましょう

v5.2も、課題は解消されていなさそうです。Version upして全体的によりリアルな雰囲気の画像にはなっていましたが、カットアウトの要素はむしろv5の方が反映されていたように感じます。

v5とv5.2で検証してみましたが、見慣れないデザインや特殊なデザインを指定したい場合、特定のプロンプトに対する学習データが少ないため、AIがそれを適切に理解できず、期待したようなデザインの画像生成が難しいようです。

「/describe」機能では期待した画像結果が得られませんでした。
このような場合、問題は単独で解決せず、他のツールも活用する必要がありそうです。

先日公開したブログ『Photoshop(ベータ版)AIをファッションに活用してみよう！』で紹介された、Photoshop(ベータ版)のAI機能で洋服のデザイン変更を試してみようと思います。

Midjourneyで生成した画像をPhotoshop(ベータ版)に投げ、変更したい部分を選択しプロンプトを入力してデザイン変更を行います。まず、「Hollow out all the lace on the chest (胸元の全てのレースをくり抜く)」と入力します。

胸元が切り抜かれ素肌が出るデザインになりました！

今度はタートルネックトップスの本体生地をニット素材に変更してみます。トップス全体を選択範囲指定し、「thick knit, turtleneck sweater (厚手のニット、タートルネックセーター)」と入力しました。

タートルネックトップスがニット素材に変わりました！

このように他ツールのAI機能を使って画像のデザイン調整を行うことも可能です。Midjourneyや他ツールには様々な機能があり、それをどう活用していくかはユーザー次第です。理想に手が届くまで調整できるかは謎ですが、近づけることは可能ですね。

他にも以下のような課題があります。

生成されるプロンプトは、ライセンスの発生する固有名詞が多用されがち

「/describe」で画像生成すると、提案されたプロンプトにライセンスの発生する固有名詞が入っていることがあります。固有名詞が画像生成のテイストなどに与える影響は大きく、省くことは可能ですが、省くことでイメージから遠ざかってしまうのはよくあることです。

弊社では、ライセンスに配慮し、プロンプト内にアーティストやブランドなどの固有名詞を入れずに一般用語で画像生成を行うケースが多々あるため「/describe」を使っても、固有名詞を除いてしまうと、元参照画像の再現が難しかったりします。
「/describe」は、固有名詞が組み込まれたプロンプトで画像生成する傾向があり、固有名詞を避けて画像生成したい場合に、適切な結果を得ることやそこからの調整が難しいです。

続けて、以下のようなことも課題だと感じています。

ユーザーや一般的に認知されていないキーワードを固有名詞としてサジェストするので活用に困る

「/describe」で画像生成すると、
"~~ kei"、"~~ punk" など独特のプロンプトが入っていることがよくあります。

以下は “ユーザーに認知されていないキーワードが固有名詞としてサジェストされる” 例です。

💡 例：oshare kei

High fashion editorial photography, a woman is standing on the sidewalk looking at a crosswalk, in the style of oshare kei, red and azure, konica big mini, grandparentcore, edogawa ranpo, dark gray and green, travel

"oshare kei" を検索してみました。
https://aesthetics.fandom.com/wiki/Oshare_Kei
知らなかった！こういうジャンルがあるのですね。

次は “一般的にも認知されていないキーワードが固有名詞としてサジェストされる” 例です。

💡 例：china punk

High fashion editorial photography, contemporary art, diamond earrings, pink nails, hyper-realistic sculptural style, pixelated, shot at 70mm, china punk, trompe l'oeil, fashion, rubber

"china punk" も検索してみましたが、とくにこれといったサイトがヒットせず。他にも"kawaii punk"などもあり、punk要素の一つとして捉えることもできます。

このように、ユーザーや一般的にも認知されていないキーワードが、固有名詞としてプロンプトに使われサジェストされる例もあり、その扱いに迷ってしまいます。

「生きた英語が分からないので、そういう単語が本当にあるのかも分からないし、使うのを躊躇する」とチームメンバーが話していました。そのため、活用する/しないの判断が人に委ねられ、調査自体も手間だと感じてしまうケースが多いでしょう。

挑戦することの価値とその先への期待

Midjourneyでテキストプロンプトから画像生成しているなかで、頭ではイメージできているのにプロンプトが思いつかない、思いついたとしてもうまく反映されないということが度々あります。

「/describe」機能を活用しつつ、その制約に対してできることには限りがあるので、いろんなツールを組み合わせたり、技術発展を守りながら上手く付き合っていきたいと思っています。

次回ブログもお楽しみに！！