Stable Diffusionの対抗馬として突如話題になったFlux.1という画像生成AIをご存じでしょうか?
ローカル環境での実行も可能、かつ複数のモデルも用意されており、なかなか使い勝手がよさそう!ということでツールのセットアップからモデルの比較まで一気にやってみました。
FLUX.1とは?
FLUX.1は、Stable Diffusionの開発者たちが設立したBlack Forest Labsによって開発された最新の画像生成AIモデルです。このモデルは、異なるニーズに対応するために3つのバリエーション(Pro、Dev、Schnell)が提供されています
モデルの性能比較
FLUX.1は3つのバリエーション(Pro、Dev、Schnell)のモデルが提供されています。それぞれの特徴を以下の表にまとめます
バージョン | 特徴 | 使用方法 | 画像品質 | 処理速度 | 商用利用 |
---|---|---|---|---|---|
FLUX.1 Pro | – 最も高性能なバージョン – 最新の画像生成能力 – 高い視覚品質と多様性 | API経由のみ | 高い | 遅い | 非商用 |
FLUX.1 Dev | – 非商用アプリケーション向け – 効率的で高品質な画像生成 | ローカル実行可能 | 中程度 | 中程度 | 非商用 |
FLUX.1 Schnell | – スピードと効率を重視 – ローカル開発と個人利用向け | ローカル実行可能 | 低い | 速い | 商用利用可能 |
FLUX.1の各バージョンは、それぞれ異なるニーズに応じて設計されています。
FLUX.1 Proは最高の画像品質を提供し、商用利用には向いていませんが、APIを通じてアクセス可能です。
FLUX.1 Devは非商用向けで、効率的な画像生成を提供します。
FLUX.1 Schnellはスピードを重視し、商用利用も可能で、ローカルでの開発に適しています
ConfyUIをセットアップ(ローカルで使うためのセットアップ)
そもそもConfyUIとは?
ComfyUIは、Stable Diffusionを利用するための強力でモジュール式のGUI(グラフィカルユーザーインターフェース)です。このツールは、ノードベースのインターフェースを採用しており、ユーザーがコーディングなしで複雑なワークフローを構築できるように設計されています。以下に、ComfyUIの主要な特徴と機能をまとめます。
特徴と機能
- ノードベースのインターフェース
ComfyUIでは、各機能が「ノード」として視覚的に表示され、これらのノードを接続することでワークフローを構築します。例えば、「モデルをロードする」や「プロンプトを書く」などの機能がノードとして提供されており、これを組み合わせて画像生成プロセスをカスタマイズできます. - 高精度な画像生成
ユーザーは細かな指示を与えることで、高精度な画像を生成できるのが特徴です。また、ComfyUIは無料で無制限に画像を生成できるため、多くのユーザーにとって魅力的な選択肢となっています. - 拡張機能のサポート
ComfyUIは多くの拡張機能をサポートしており、これによりユーザーはさらに高品質な画像を生成することが可能です。例えば、カスタムスクリプトや効率的なノードの追加ができる機能があり、使い勝手を向上させることができます. - 日本語プロンプトの入力
ComfyUIでは、日本語のプロンプトを入力して画像を生成することも可能です。これにより、日本語話者にとって使いやすい環境が提供されています.
インストールと基本操作
ComfyUIのインストールは、使用しているOSに応じて異なりますが、一般的にはGitHubからダウンロードすることができます。
以下からダウンロードしてください
解凍後、以下のようなフォルダができるので「run_nvidia_gpu.bat」をダブルクリックで実行してください(GPUを搭載していない場合は「run_cpu.bat」を使いましょう)
インストール後のワークフローの設定
以下からFlux.1用のワークフローを取得して読み込みます。(デフォルトでも良いのですが、こちらのほうが見やすいです)
読み込むと以下のようなワークフローが表示されます
表示されたら「Queue Prompt」をクリックするとプログラムが動いて画像が表示されます。(PCスペックによりますが、数秒から数十秒程度かかります)
Flux.1で作った画像比較
それぞれのバージョンで画像を作ってみました。とはいえ適当なプロンプトを入れるのも気が引けるので画像生成用のプロンプトを作る下準備から開始しています。
下準備:画像生成用のプロンプトを作る
変わったシーンを考えるべくChatGPTと会話しながら、テスト用にこんな感じの画像を作ることにしました
このペンギンがスーツを着てホログラムのコーヒーマグを持っているシーンを、砂漠のオアシスとサイバーパンクな都市を背景にモノクロフィルムの質感で
これをChatGPTでStable Diffusion用のプロンプトに変換しています。変換用のプロンプトは以下
{良いプロンプトの例}を参考にして各シーンについて、1文でまとめてください
#良いプロンプトの例
best quality, FHD, male child, ninja, cheerful grin, Epic Battle Scene, on the ship, ultra realistic photo, with a tornado
ということで出来上がったプロンプトはこちら
Best quality, FHD, penguin in a suit, holding a holographic coffee mug, relaxing at an oasis in the desert, with a cyberpunk city in the background, grainy monochrome film effect.
実行:Flux.1の各バージョンで画像生成する
ようやく準備がととのったので画像を作っていきます。ちなみにそれぞれの実行環境は以下の通り
モデル | 実行環境 |
---|---|
Flux.1 pro | Playground(fal.ai) |
Flux.1 dev | ローカル環境(ConfyUI) |
Flux.1 schnell | Playground(Hugging face) |
DALL-E | ChatGPT ※比較用 |
Flux.1 pro
Flux.1 dev
Flux.1 schnell
DALL-E3
まとめ
devが変な画像になってしまっていますが、schnellでも相当きれいな画像ができてます。とはいえやはりproがかなりリアリティあふれる写実性の高いものになっているな、という印象です。
ConfyUIで色々修正かけられるので、他のモデルも今後試していこうと思います
参考
以下を参考にさせていただきました
コメント