ChatGPT画伯の画像生成ロジック

こーゆーことはnoteとかに書くべきじゃないのかなぁ、と思わなくはないのだけど、私はnoteのアカウント持ってないので（汗）

ChatGPT4o に画像生成機能が実装されました。

で、ジブリ風の画像が出回っている、と言うのはニュースにもなりましたね。

まぁ、私はニュースで流れた画像以外知らんのですが（TwitterのTL見てないモノで。

で、とりあえず、私もやってみました。

とりあえず、手持ちの画像はコレ

Vroidで作った翠ちゃんですね。

これをChatGPTさんに読み込んでもらい、『アニメ風』『〇〇のキャラっぽい表情で』と言う曖昧な説明で画像を作ってもらいました。〇〇に入るのはジブリではありませんが、とりあえず〇〇風、と言う文言がニュースに流れてみたので、プロンプトに入れてみたら、良い感じになるかな、と思ったためです。

ちなみに、Grokさんは

こんな感じだったので、あんまり期待していませんでした。

で、ChatGPTさんが作ったのはコレ。

なんか、凄いの出てきたな、ヲイ。

その後、ChatGPTさんと色々とキャラのバックストーリーを決めていきます。どうも、この過程もChatGPTにプログラムされている工程らしく、バックストーリーを確定させることで、画像生成の精度を高める意味合いがるそうです。逆に言えば、適当なプロンプトで画像生成を始めると、Grokと大差ない、どころかさらに酷いモノができます（何度か失敗した

で、バックストーリーを構築するうちに立ち絵ができる、というので、お願いしてみることに

若干、髪型とか変わってるけど、むしろ良くなった。

ただ、元絵が私は金髪のつもりだったので、金髪も見てみたい、と注文してみたら、

こうなりました。若干衣装が変わってしまっています。衣装や髪型を変更しないで、髪色だけ変えて、と言ってもうまく行きません。

そうこうしてるうちに、ChatGPTのレートリミットが来てしまったので、待ち時間の間、どうしてこうなるのか、画像を食わせてGrokさんに分析してもらいました。

Grokさんの分析結果

生成AIの画像生成プロセスは、プロンプトと画像を取り込んで『一から描き直す』らしいです。この際に画像の変更箇所に伴い、どうしてもディティールが失われてしまうのだとか。

ちなみに、緑髪のイラストに対して、金髪の方は髪のボリュームが減ったり、衣装が簡略化されてますが（ファスナーが欠落、袖のチェック柄が消失）、この辺の影響はどうしても避けられないらしい。

また、緑に対して、白はコントラストが目立ちにくく、その関係であえて、ディティールを落とすことで、イラスト全体の『映え』を維持した可能性を推測してました（ちなみに、レート制限が解除された後、同じことを確認したら、ChatGPTも認めてました）

なお、Grokからは『ディティールの維持』を明確にプロンプトに書くことで、ディティールの欠落を防止できる可能性がある、とのことでしたが、ChatGPTで試したところ、ディティールを維持したままの画像変更ができない、とのことで生成AIで画像のリテイクを出すと、何らかのディティールの欠落は避けられないようです。

ディティールの変化

実はディティールMAXなのが、コレ

元絵はこちらですが、

元絵よりディティールが高くなった理由としては。

バックストーリーが確定した。
立ち絵、とバックストーリーと言う観点から、一から描き直した

つまりこの立ち絵、実は元絵を立ち絵にした、というより、元絵とバックストーリーから、一から描いた別のイラスト、なのだそうです（言われて見れば衣装の細部が違うし、髪型がそもそも違う）

Grokの分析では、これで立ち絵がディティール100%として、こちらの元絵は90%ぐらいだそう。

ディティールを維持しようとすると、バックストーリーを確定した後で、一から描く、しかないですが、それでは別キャラとなってしまうため、リテイクを出せば、どうしてもディティールは落ちてしまうらしいです。

この辺が現在の生成AIの限界。

なんと言うか、リテイクするたびに衣装違いとか発生するとか

万策尽きた

アニメ業界のようです。

と言うことは、アニメに応用するのはまだ早いんじゃないかなぁ、と思う次第（特に動画）

キャラデザぐらいなら、できそうですけどね。

以降、Grokの分析

このイラストを100%とします（今回のイラストでは、もっともディティールが高い）

最初の元絵、Vroidから作り出したイラストは高く見積もって60%ほどだそうです。

かなり低い。

まぁ、Vroidは3Dで動かすためのポリゴンが元になっているので、そんなモノかも（そもそも2Dのイラストを描くように作られてない）

そして、こちらのイラストは80%程度なんだとか。影とかのコントラストや服の皺が言われてみればちょっと雑。

他にも緑髪の娘でいくつか、ポーズ変更もお願いしたのですが、やはり衣装が欠落したり、影のコントラストが良い意味で2次元風になってしまっています。

ちなみにGrokのイラストは

70%ほどのディティールだそうで。

元絵が60%なので、10%程度引き上げていることから高品質にはなっていますが、ChatGPTさんの本気と比べると、だいぶ差がある印象です。

と言うわけで、

このイラストを新しい翠として採用した次第（一番良い出来のイラスト）

他のポーズも動画でチョコチョコ使おう、とは思っていますが、動画に貼り付ける程度のサブイラストとしての品質は担保されている、というのがGrokさんの見解です。

んで、スイスポと合わせてみた

個人的意見では良く出来てるなぁ、と。

スイスポが黄色のカラーなので、アバターも黄色がいいかなぁ、と思っていたのですが、黄色と黄色だと色被りしますが、緑だと色被りしない。

しかも翠（すい）と言うのは翠（みどり）と言う意味があるので、名前とのマッチングもいい。

まぁ、そもそも翠って名前自体がスイスポから取ってる安直ネーミングなんですがw

コントラストの問題

iPhoneの無限時計で作った画像です。

まぁ、黒に黄色でも十分映えると思いますが、白と黄色だとコントラストが薄くなりがちだけど、緑なら映える、と言うのはわかる。

そもそも肌の色が白に近い色ですからねぇ。

実はこの画像、ヘアバンドがありません。

ディティール省略のために消された、と考えるのが妥当ではありますが、コントラストを考えて、埋没しやすいチェック柄のヘアバンドをあえて消した可能性もあります（まぁ、その後にポーズ変更したら、チェック柄ではなく、黒のヘアバンドになっていたので、単にディティール消失に巻き込まれた可能性の方が高そうです。

閑話休題

ジブリ風イラストのお話。

特に印象に残ったのが、トランプ狙撃事件。

トランプが狙撃されてなお、演説をやめなかった、と言う逸話ですが、これもジブリ風イラストになってニュースに流れてました。

まぁ、トランプは耳を撃ち抜かれたはずが、頬から流血してる、と言う違いはありますが、スタジオジブリがトランプ狙撃事件のワンシーンを描いた、と言っても遜色ない出来栄えです（少なくとも素人目には）

で、この話、ChatGPTに話したら、

『狙撃されてなお、演説しようとするトランプ』と言うシチュエーションがまるで映画のようでバックストーリーが構築しやすい。
ドナルド・トランプ自体が大男であり、かつ特徴的な容姿をしているため、非常に絵になる。

と言う事で、生成AIがイラストを作りやすい状況が揃っていたらしいです。

まぁ、私はトランプ狙撃事件の際の写真は見ていないし、そもそも狙撃された瞬間の写真なんてあったかどうか知りませんが（まぁ、映像は残ってそうですが、あんな見事なアングルの映像が残っているかどうか……）

その辺は生成AIが『ジブリ映画的な』アングルの演出を狙って描いたのかもしれません。

とりあえず

今のところ、ChatGPTは高品質なイラストを描き出しますが、仕様を理解しないと使いこなすのは難しい、と感じた次第です。

あと、生成コストが高くて連発はできないなぁ、と。

生成AI

GRスイスポ

スイスポ@タイヤ館石神井 TC2000:1'03.071（のちすたさんドライブ） TC2000:1'04.961 TC1000:0'40.649 日光:0'41.766 本庄:0'45.063 FISCOショート 0'35.674 座右の銘は『仁義』『やりたいこと最優先』『迷子でもいい、迷子でも進め』 #スイフトスポーツ #スイスポ #ZC33S