「ROG Ally X」でAIお絵描きしてみる。(その2)
昨晩私は『「ROG Ally X」でAIお絵描きしてみる』と述べており、実際に10枚ほど画像を出力してみました。
出力された画像のクオリティには概ね満足なのですが、心なしか時間が掛かっているような気がします。
というわけで、「同じプロンプトを用いて『ROG Ally X』と『NVIDIA GeForce RTX 4070 Ti SUPER を搭載したデスクトップゲーミングPC』の両方で画像を生成したときの性能差」を見てみることにしました。
ただし、この比較はあくまで自分が「『ROG Ally X』におけるAI画像出力が実用に足るものなのか、そしてデスクトップゲーミングPCの代替となり得るのか」ということを確かめるためにおこなったもので、プロンプト以外の条件も含めて完全に同じ状態でテストしたわけではないということを、あらかじめお断りしておきます。
テスト①;昨晩出力したガッツポーズ(?)のプロンプトでの比較
昨日は、「ROG Ally X」にインストールしたAI画像生成ソフトウェア「Amuse」を用いて、下記のプロンプトを用いて10枚の画像を出力しました。
best quality,8k, realistic, masterpiece, RAW photo, a tall Japanese voluptuous short-haired intelligent beautiful girl clenching her fists in triumph in the dark room with rainbow backlights, wearing dark green headband, dark green tanktops with a large open chest area, white tight hotpants, white long boots.
Negative:
low-quality,worst-quality,bad fingers,bad hands,extra fingers,extra hands,missing fingers,missing hands,watermark,logo,text,copyright,credit,signature,blurry,painting,drawing,sleeves
negative_hand-neg
そのときに掛かった時間は、約10分36秒でした。
同じプロンプトで、「GeForce RTX 4070 Ti SUPER」を搭載しているゲーミングPCにインストールした「Stable Diffusion WebUI Forge」を用いて、「Amuse」の時と同じ10枚、画像を出力しました。
しかし、出力条件のうち、「Amuse」と合わせたのは、プロンプトと枚数、そして出力時の画像サイズとステップ数(20)のみで、そのほかの条件については敢えて普段自分が「Stable Diffusion WebUI Forge」を用いる状態から変えていません。そもそも生成モデルに至っては統一不可能ですしね。
あくまで参考値ですが、掛かった時間は約1分4秒。「Amuse」で出力したときの実に1/10です。
とはいえ、どうもこちらの出力結果、モデルの問題もあるのでしょうが自分の期待する内容とは異なった画像が多く出力されてしまっています。
大半の絵では着衣そのものがプロンプトでの指定を守っていません。また、そもそも1枚の絵の中に複数人の人物が描かれることそのものを想定していませんでしたし、描かれた人物画像もどこかおかしな点が見受けられます。
自分が「Stable Diffusion WebUI Forge」を用いて、img2imgではなくtext2imgでプロンプトから画像を生成するときは、だいたい768×768で出力するのですが、そのときは人物画像を出力してもあまり問題を感じません。しかし、あまりにも大きなサイズで画像を出力しようとすると、途端に使い物にならない画像が出力される確率が増えます。これは人物に限らず建造物の絵などでも同様で、高画質を求めて解像度を高めた絵を出力しようとしてもろくなことになりません。
テスト②;モデル立ちのプロンプトでの比較
今度は、やはり単体の人物画像になりますが、モデル立ちを指定したときの出力結果と所要時間がどうなるか。
best quality,8k, realistic, masterpiece, RAW photo, full body, a tall Japanese voluptuous short-haired intelligent beautiful girl standing in the model's pose with fascinating smile, wearing dark green headband, white tight silky hotpants, dark green tanktops with a large open chest area, white long boots.
Negative:
worst-quality,low-quality, wartermark, logo, text, painting, drawing, pocket,bikini,leotard,skirt
今回も10枚ずつ出力してみました。
まず、「ROG Ally X」の「Amuse」で出力した結果、所要時間は11分39秒でした。
「GeForce RTX 4070 Ti SUPER」搭載PCの「Stable Diffusion WebUI Forge」では、やはり参考値となりますが、57秒。1分を切っています。
しかし、やはりこちらの方も出力された画像の質は良くありません。
Stable Diffusion向けの生成モデルは、出力される画像のサイズが512×512、もしくは768×768を前提としているものが多いそうで、今回指定した1024×1024というのはやはり大きすぎであるようです。まずは小さなサイズで出してみて、アップスケーリングするなりimg2imgを用いて再錬成するなりといった使い方であれば良いのですが、素のプロンプトからの生成ではあまり大きな画像サイズを指定するのはナンセンスであるようです。
その意味では、「Amuse」が1024×1024のサイズで高品質な画像を出力するというのは、地味ではありますが進歩していると言えるでしょう。
結論
「ROG Ally X」にインストールした「Amuse」からの出力は、このブログの挿絵のような画像を生成する用途としては十分使えると思います。
あるテーマに沿った画像を大量に生成してその中から採用するものを選ぶという使い方には向きませんが、作業の片手間に画像を生成する文には、時間的にもまあ許容範囲なのではと思います。
ただ、これはあくまでEZモードでの話。
で、結局「Advancedモード」はまだ触っていないの?
昨日時点では、後日「Amuse」のAdvancedモードも触ってみたいと述べておりましたが、こちらについてはまだできていません。
設定項目が多い(まあそれでも「Stable Diffusion WebUI Forge」ほどではありませんが)ということがありますので、これは週末などの時間のあるときにじっくりいじりたいと思います。
それ次第で、「Amuse」に対する自分の評価はまた違ったものになると思います。
#2025年 #2025年3月 #2025年3月25日 #ASUS #RogAllyX #RC72LA #ポータブルゲーム機 #AMD #RyzenZ1 #PC #Windows #AI #StableDiffusion #Amuse #TensorStack #グラフィックボード #グラフィックカード #グラボ #GPU #NVIDIA #GeForce #RTX4070TiSUPER