近年、画像生成AIの技術は目覚ましい進歩を遂げており、様々な分野で活用されています。そんな中、日本語に特化した画像生成AI「Japanese Stable Diffusion XL」(以下Japanese SDXL)がリリースされました。今回は、実際にJapanese SDXLを試してみた感想をレビューしたいと思います。
Japanese SDXLの特徴
Japanese SDXLは、Stability AIが開発した画像生成AI「SDXL」をベースに、日本語入力や日本文化に特化したモデルです。従来の画像生成AIでは、日本語で入力しても意図した画像が生成されないケースがありましたが、Japanese SDXLは日本語特有の表現を理解し、より精度の高い画像生成が可能になっています。
実際に試してみた
早速、Japanese SDXLを試してみました。まず、Webブラウザ上で動作するデモ画面にアクセスし、生成したい画像のテキストを入力します。
単語レベルのプロンプト
人間は肌のハリ感や艶はリアルに表現できています。ただ細部のクオリティは低いのが残念でした。
動物は固有名詞ということもあり、概ね綺麗に生成されます。
美少女
数秒待つと、いくつかの画像が表示されました。1番良かったのがこちら。
瞳が大きく透明感の溢れる日本女性が生成されました。16歳くらいでしょうか。肌の艶とハリは綺麗だと思います。
イケメン
韓国風の爽やかな男性になりました。片手が不自然に消えています。服装もスーツに素足で革靴?で面白い。
柴犬
動物系は本物レベルで生成されます。ただし背景から浮いているようにみえ、合成感は否めませんが・・・。
二文語レベルのプロンプト
二文語も細部の雑さが目立ちます。
笑顔の赤ちゃん
可愛らしい1歳未満の女の子が生成されました。思わず触れたくなるような、弾力のある「むにむに感」がお見事。
勉強する女子高生
女子高生というよりも小学生〜中学生くらいの少女が生成できました。肌質は若々しくハリと艶があります。反対の手に赤鉛筆を持っているのは不自然。
複雑な指示のプロンプト
複雑になると違和感がある画像がほとんどでした。
富士山を背景に桜並木を歩く着物姿の女性
桜並木は細部まで描き込まれており、その精度の高さに驚きました。女性の着物の柄は鮮やかな赤色の花柄で、本物のよう。
ですが風景が全体的にリアルさに欠けますね・・・。道は不自然に平坦だし女性は合成っぽいし、富士山もベタ塗り感が否めない。
レトロな雰囲気の喫茶店
雰囲気は何となくカフェっぽさは出ていますが、どちらかというアメリカな喫茶店といった方がしっくりきます。
和室で遊ぶ猫
畳はリアルに表現されています。和小物もオモチャ感がありますが、まずまずの生成具合。問題は猫。頭の毛が潰れてのっぺりとしています。また遊んでいるではなくじっと座っていますね。
代表的な場所
東京駅
赤レンガの壮麗な駅舎を思い浮かべていたら、全く異なる感じの画像が生成されました。ヴィーナスフォートの中のような感じでビックリ。
清水寺
赤い本堂はパッとみは問題ないように感じるが、よく見ると一部が削られていたり不自然に浮いていたりします。池に映り込む本堂はとてもよく表現できています。
課題
AI画像生成技術は近年目覚ましい進歩を遂げ、リアルな人物画像を生成できるようになりました。しかし、今回Japanese SDXLを使用していくつかの課題があると感じました。
1. 不自然な部分:
- 手足が雑に描かれ、指の本数が多いなど不自然な形状になることがある。
- 目がうつろだったり焦点が合っていなかったり、年齢と合わない顔立ちになることがある。
2. 表現力の限界:
- 肌の質感はリアルに表現できる一方、テクスチャが単調になりがち。
- 髪の毛や服飾などの複雑な質感表現が苦手。
3. 場所の不自然さ:
- 特定の場所を指示しても、全く違う場所が描かれる
- 建造物の一部が消えたり浮いたりして、不自然な画像が生成される
まとめ
Japanese SDXLは、日本語で高精度の画像生成が可能なAIです。日本語特有の表現を理解し、日本の風景や文化を忠実に再現することができます。まだ課題もありますが、今後さらに改良が進めば、画像生成の可能性を大きく広げてくれるツールになるでしょう。
評価
- 日本語入力の精度:★★★★☆
- 画像生成の精度:★★☆☆☆
- 生成速度:★★★★☆
- 使いやすさ:★★★★★
- 総合評価:★★☆☆☆
今後の展望
今後、Japanese SDXLがさらに進化していくことで、以下のようなことが可能になる可能性があります。
- より複雑なイメージを生成
- より正確なイメージを生成
日本語特化の画像生成AI「Japanese SDXL」は、今後の進化が非常に楽しみです。