ウェブを調べて描くChatGPT Images 2.0

OpenAIが画像生成モデル「ChatGPT Images 2.0」を公開した。最大の変化は、画像を作る前にモデル自身がウェブ検索と推論を行うようになったこと。美しい絵を競う時代は、もう終わりに近い。

情報の灯台

2026年4月22日

画像生成AIが「考える」ようになった

OpenAIは4月21日(米国時間)、新しい画像生成モデルChatGPT Images 2.0を発表した。APIでのモデル名はgpt-image-2で、ChatGPTの全プラン、Codex、APIから同時に使えるようになっている。

注目すべきは性能表の数字ではない。このモデルが同社初の思考能力を持つ画像モデルとして設計されている点だ。

ChatGPTで推論モデルを選ぶと、Images 2.0はプロンプトを受け取った瞬間に生成を始めない。代わりにウェブを検索し、1つの指示から複数の候補を作り、自分の出力を見直す。画像生成が、一発勝負のレンダリングから「調べて、考えて、描く」プロセスへと変わる。

サム・アルトマン(Sam Altman)CEOは発表のライブ配信で、今回のモデル進化を「GPT-3からGPT-5への飛躍を一気にやったようなもの」と説明した。画像生成という、ともすれば地味になりがちな分野でこの言い回しが出てきたことは、注意深く受け止めた方がいいかもしれない。

「ウェブから情報を引き出せる」が意味すること

The Vergeはこの発表を「ウェブから情報を引き出せるようになった画像生成AI」という切り口で紹介している。淡々とした見出しだが、含意は軽くない。

思考モデルが選択されたとき、チャットボットの画像生成機能はウェブから情報を引き出し、アップロードされたファイルをもとに視覚的な説明を作り、画像を生成する前にその構造を推論できるようになる。

たとえば「今年のiPhoneのカラーバリエーションをまとめたポスターを作って」と頼んだとき、従来の画像モデルは学習データの中にあった情報を手がかりに、それっぽい絵を出すしかなかった。知識カットオフを超えた最新情報は、基本的に扱えない。

Images 2.0は違う。ウェブを調べ、現時点での正解を確認してから描画に入る。生成と検索の境界が溶けたと言ってもいい。この挙動は、すでにGoogleがNano Banana Proで実現していた機能と同系統のもので、業界の標準装備になりつつあると見ていい。

なおモデル自体の知識カットオフは2025年12月まで拡張されている。

テキスト描画という長年の弱点

画像生成AIの最大の弱点は、長らく「画像の中に文字をまともに描けない」ことだった。拡散モデルはノイズから画像を再構成する仕組み上、文字のような細かいパターンを正確に再現するのが苦手で、AIが生成したポスターやメニューは、拡大すると意味不明な記号の羅列になりがちだった。

Images 2.0は、この領域で段違いの進化を見せた。OpenAIは小さな文字、アイコン、UI要素、密度の高い構図、微妙なスタイル指示まで、最大2K解像度で扱えると主張している。外部の検証でも、ChatGPT Images 2.0は画像生成のベンチマーク「Image Arena」でText-to-Image、Single-Image Edit、Multi-Image Editの3部門すべてで首位を獲得し、2位に242点差をつけた。

Image Arena：GPT Image 2と2位モデルのスコア差

Text-to-Image+242 Arena史上最大の差

GPT Image 2

1,512

Nano Banana 2

1,271

Single-Image Edit+125 vs Nano Banana Pro

GPT Image 2

1,513

Nano Banana Pro

1,388

Multi-Image Edit+90 vs Nano Banana 2

GPT Image 2

1,464

Nano Banana 2

1,374

※ Artificial Analysis Image Arena Eloレーティングより。GPT Image 2は3部門すべてで首位を獲得。

日本語話者にとって特に重要なのは、非ラテン文字の描画精度が上がったことだ。日本語、韓国語、中国語、ヒンディー語、ベンガル語などで、段落レベルの文章を画像内に自然に配置できるようになった。「キャンペーン開催中」や「20%OFF」といった販促バナー、スマホアプリの「設定」「履歴」のようなUIラベル、ポスターの見出し文字——これまで諦めるしかなかった日本語込みのビジュアル素材が、実務に耐えるレベルで出せるようになった可能性がある。

実際に触った日本語ユーザーからは「日本語のテキストがほぼ崩れない」「広告バナー、インフォグラフィック、業務フロー図まで、そのまま資料として使えるレベル」という評価が出始めている。

1プロンプトで最大8枚、キャラクターも保つ

Thinkingモードで可能になるもう1つの機能が、1つの指示から最大8枚の一貫性ある画像をまとめて生成することだ。登場人物、オブジェクト、スタイルを各シーンで保ったまま連続させられる。

OpenAIはユースケースとして1ページ分のマンガ、サイズ違いのSNS向けグラフィック一式、1軒の家の各部屋のデザイン案を挙げている。ストーリーボード制作や複数サイズ展開を伴うマーケティング素材の作成が、ひとつのプロンプトで完結するという発想だ。

Thinkingモードは、ChatGPTの「thinking」または「pro」モデルを選択したときに起動する。ウェブ検索、複数画像の同時生成、自己検証までを生成前に内側で回す仕組みで、Plus、Pro、Businessの有料プランに提供される。

これまでは1枚ずつ生成し、人間が手作業でつなぎ合わせる必要があった。Images 2.0は、そのつぎはぎ作業をモデルの内側に取り込んだ、と見るのが分かりやすい。

価格と利用条件

APIの料金は、画像入力が100万トークンあたり8ドル、出力が30ドル。テキストは入力5ドル、出力10ドルとなっている。1枚あたりの単価は、1024×1024解像度でLow品質が約0.006ドル、Medium約0.053ドル、High約0.211ドルだ。

gpt-image-2 API料金（1024×1024解像度・1枚あたり）

※ OpenAI APIの公開料金。Low品質はGPT Image 1.5の$0.009より安く、High品質は$0.133から上振れるが、2K解像度・Thinkingモードでのウェブ検索・複数画像生成を含む単価。

従来のGPT Image 1.5と比べるとLow側は安くなり、High側は上振れる。ただしHighの価格には、2K解像度、複数画像の同時生成、Thinkingモードのウェブ検索まで含まれる。単純に「1枚の画像代」と考えるより、1タスク分の作業を委ねる料金と捉える方が実態に近い。

無料プランを含む全ChatGPTユーザーが即日Instant Modeを使える一方、Thinking Modeを含む高度な機能はPlus、Pro、Businessの有料プランに限定される。Enterpriseは近日対応予定だ。

ChatGPT Images 2.0：プラン別対応機能

	Free	Plus	Pro	Business	Enterprise
Instantモード	○	○	○	○	○
Thinkingモード	—	○	○	○	近日
ウェブ検索	—	○	○	○	近日
複数画像生成	—	○	○	○	近日
自己検証	—	○	○	○	近日

※ OpenAI公式発表（2026年4月21日）に基づく。複数画像生成は1プロンプトから最大8枚。Enterpriseは近日対応予定。APIでは両モードがgpt-image-2として利用可能。

残る課題と、その先にあるもの

Images 2.0も万能ではない。OpenAIは精密な物理的推論や、極めて密度の高いテクスチャ、細部まで構造的な正確性が求められる図解では、まだ追加の確認が必要なケースがあると認めている。Thinkingモードは最大2分程度の待ち時間が発生する点も、実運用では無視できない。

そしてもう一つ、冷静に考えておくべきテーマがある。リアルな画像の量産が誰にでもできるようになった現実だ。OpenAIは生成画像にC2PA規格のメタデータと不可視の電子透かしを埋め込んでいるとしているが、スクリーンショットや再圧縮でメタデータは簡単に消える。開発チーム内部でも「メタデータは万能薬ではない」という認識があるまま、今回のリリースは実行された。