最新の画像生成AI「Flux.1」の性能は?

機械学習

Stable Diffusionの対抗馬として突如話題になったFlux.1という画像生成AIをご存じでしょうか?
ローカル環境での実行も可能、かつ複数のモデルも用意されており、なかなか使い勝手がよさそう!ということでツールのセットアップからモデルの比較まで一気にやってみました。

FLUX.1とは?

FLUX.1は、Stable Diffusionの開発者たちが設立したBlack Forest Labsによって開発された最新の画像生成AIモデルです。このモデルは、異なるニーズに対応するために3つのバリエーション(Pro、Dev、Schnell)が提供されています

モデルの性能比較

FLUX.1は3つのバリエーション(Pro、Dev、Schnell)のモデルが提供されています。それぞれの特徴を以下の表にまとめます

バージョン特徴使用方法画像品質処理速度商用利用
FLUX.1 Pro– 最も高性能なバージョン
– 最新の画像生成能力
– 高い視覚品質と多様性
API経由のみ高い遅い非商用
FLUX.1 Dev– 非商用アプリケーション向け
– 効率的で高品質な画像生成
ローカル実行可能中程度中程度非商用
FLUX.1 Schnell– スピードと効率を重視
– ローカル開発と個人利用向け
ローカル実行可能低い速い商用利用可能

FLUX.1の各バージョンは、それぞれ異なるニーズに応じて設計されています。
FLUX.1 Proは最高の画像品質を提供し、商用利用には向いていませんが、APIを通じてアクセス可能です。
FLUX.1 Devは非商用向けで、効率的な画像生成を提供します。
FLUX.1 Schnellはスピードを重視し、商用利用も可能で、ローカルでの開発に適しています

ConfyUIをセットアップ(ローカルで使うためのセットアップ)

そもそもConfyUIとは?

ComfyUIは、Stable Diffusionを利用するための強力でモジュール式のGUI(グラフィカルユーザーインターフェース)です。このツールは、ノードベースのインターフェースを採用しており、ユーザーがコーディングなしで複雑なワークフローを構築できるように設計されています。以下に、ComfyUIの主要な特徴と機能をまとめます。

特徴と機能

  1. ノードベースのインターフェース
    ComfyUIでは、各機能が「ノード」として視覚的に表示され、これらのノードを接続することでワークフローを構築します。例えば、「モデルをロードする」や「プロンプトを書く」などの機能がノードとして提供されており、これを組み合わせて画像生成プロセスをカスタマイズできます.
  2. 高精度な画像生成
    ユーザーは細かな指示を与えることで、高精度な画像を生成できるのが特徴です。また、ComfyUIは無料で無制限に画像を生成できるため、多くのユーザーにとって魅力的な選択肢となっています.
  3. 拡張機能のサポート
    ComfyUIは多くの拡張機能をサポートしており、これによりユーザーはさらに高品質な画像を生成することが可能です。例えば、カスタムスクリプトや効率的なノードの追加ができる機能があり、使い勝手を向上させることができます.
  4. 日本語プロンプトの入力
    ComfyUIでは、日本語のプロンプトを入力して画像を生成することも可能です。これにより、日本語話者にとって使いやすい環境が提供されています.

インストールと基本操作

ComfyUIのインストールは、使用しているOSに応じて異なりますが、一般的にはGitHubからダウンロードすることができます。
以下からダウンロードしてください

GitHub - comfyanonymous/ComfyUI: The most powerful and modular diffusion model GUI, api and backend with a graph/nodes interface.
The most powerful and modular diffusion model GUI, api and backend with a graph/nodes interface. - comfyanonymous/ComfyUI

解凍後、以下のようなフォルダができるので「run_nvidia_gpu.bat」をダブルクリックで実行してください(GPUを搭載していない場合は「run_cpu.bat」を使いましょう)

インストール後のワークフローの設定

以下からFlux.1用のワークフローを取得して読み込みます。(デフォルトでも良いのですが、こちらのほうが見やすいです)

flux1_schnell.json

読み込むと以下のようなワークフローが表示されます

表示されたら「Queue Prompt」をクリックするとプログラムが動いて画像が表示されます。(PCスペックによりますが、数秒から数十秒程度かかります)

Flux.1で作った画像比較

それぞれのバージョンで画像を作ってみました。とはいえ適当なプロンプトを入れるのも気が引けるので画像生成用のプロンプトを作る下準備から開始しています。

下準備:画像生成用のプロンプトを作る

変わったシーンを考えるべくChatGPTと会話しながら、テスト用にこんな感じの画像を作ることにしました

このペンギンがスーツを着てホログラムのコーヒーマグを持っているシーンを、砂漠のオアシスとサイバーパンクな都市を背景にモノクロフィルムの質感で

これをChatGPTでStable Diffusion用のプロンプトに変換しています。変換用のプロンプトは以下

{良いプロンプトの例}を参考にして各シーンについて、1文でまとめてください

#良いプロンプトの例
best quality, FHD, male child, ninja, cheerful grin, Epic Battle Scene, on the ship, ultra realistic photo, with a tornado

ということで出来上がったプロンプトはこちら

Best quality, FHD, penguin in a suit, holding a holographic coffee mug, relaxing at an oasis in the desert, with a cyberpunk city in the background, grainy monochrome film effect.

実行:Flux.1の各バージョンで画像生成する

ようやく準備がととのったので画像を作っていきます。ちなみにそれぞれの実行環境は以下の通り

モデル実行環境
Flux.1 proPlayground(fal.ai)
Flux.1 devローカル環境(ConfyUI)
Flux.1 schnellPlayground(Hugging face)
DALL-EChatGPT ※比較用

Flux.1 pro

Flux.1 dev

Flux.1 schnell

DALL-E3

まとめ

devが変な画像になってしまっていますが、schnellでも相当きれいな画像ができてます。とはいえやはりproがかなりリアリティあふれる写実性の高いものになっているな、という印象です。

ConfyUIで色々修正かけられるので、他のモデルも今後試していこうと思います

参考

以下を参考にさせていただきました

Flux.1とかいう新しい画像生成AIのモデルのすばらしさを皆様にも知っていただきたい。試し方もあるよ!|ぶるぺん/blue.pen5805
※ この記事内の生成画像はすべて Flux.1 Schnell で生成した無加工品です というわけで Flux.1 という新しい画像生成用のモデルが出てかなり面白い!っていう話です 例えばこんな感じの画像とかが簡単に作れます 白いスタジオに置かれた一本のシイタケ。 ここでのルールはただ一つ。 一発採りのパフォー...

コメント