ウェブを調べて描くChatGPT Images 2.0
OpenAIが画像生成モデル「ChatGPT Images 2.0」を公開した。最大の変化は、画像を作る前にモデル自身がウェブ検索と推論を行うようになったこと。美しい絵を競う時代は、もう終わりに近い。
OpenAIが画像生成モデル「ChatGPT Images 2.0」を公開した。最大の変化は、画像を作る前にモデル自身がウェブ検索と推論を行うようになったこと。美しい絵を競う時代は、もう終わりに近い。
画像生成AIが「考える」ようになった
OpenAIは4月21日(米国時間)、新しい画像生成モデルChatGPT Images 2.0を発表した。APIでのモデル名はgpt-image-2で、ChatGPTの全プラン、Codex、APIから同時に使えるようになっている。
注目すべきは性能表の数字ではない。このモデルが同社初の思考能力を持つ画像モデルとして設計されている点だ。
ChatGPTで推論モデルを選ぶと、Images 2.0はプロンプトを受け取った瞬間に生成を始めない。代わりにウェブを検索し、1つの指示から複数の候補を作り、自分の出力を見直す。画像生成が、一発勝負のレンダリングから「調べて、考えて、描く」プロセスへと変わる。
サム・アルトマン(Sam Altman)CEOは発表のライブ配信で、今回のモデル進化を「GPT-3からGPT-5への飛躍を一気にやったようなもの」と説明した。画像生成という、ともすれば地味になりがちな分野でこの言い回しが出てきたことは、注意深く受け止めた方がいいかもしれない。
「ウェブから情報を引き出せる」が意味すること
The Vergeはこの発表を「ウェブから情報を引き出せるようになった画像生成AI」という切り口で紹介している。淡々とした見出しだが、含意は軽くない。
思考モデルが選択されたとき、チャットボットの画像生成機能はウェブから情報を引き出し、アップロードされたファイルをもとに視覚的な説明を作り、画像を生成する前にその構造を推論できるようになる。
たとえば「今年のiPhoneのカラーバリエーションをまとめたポスターを作って」と頼んだとき、従来の画像モデルは学習データの中にあった情報を手がかりに、それっぽい絵を出すしかなかった。知識カットオフを超えた最新情報は、基本的に扱えない。
Images 2.0は違う。ウェブを調べ、現時点での正解を確認してから描画に入る。生成と検索の境界が溶けたと言ってもいい。この挙動は、すでにGoogleがNano Banana Proで実現していた機能と同系統のもので、業界の標準装備になりつつあると見ていい。
なおモデル自体の知識カットオフは2025年12月まで拡張されている。
テキスト描画という長年の弱点
画像生成AIの最大の弱点は、長らく「画像の中に文字をまともに描けない」ことだった。拡散モデルはノイズから画像を再構成する仕組み上、文字のような細かいパターンを正確に再現するのが苦手で、AIが生成したポスターやメニューは、拡大すると意味不明な記号の羅列になりがちだった。
Images 2.0は、この領域で段違いの進化を見せた。OpenAIは小さな文字、アイコン、UI要素、密度の高い構図、微妙なスタイル指示まで、最大2K解像度で扱えると主張している。外部の検証でも、ChatGPT Images 2.0は画像生成のベンチマーク「Image Arena」でText-to-Image、Single-Image Edit、Multi-Image Editの3部門すべてで首位を獲得し、2位に242点差をつけた。
日本語話者にとって特に重要なのは、非ラテン文字の描画精度が上がったことだ。日本語、韓国語、中国語、ヒンディー語、ベンガル語などで、段落レベルの文章を画像内に自然に配置できるようになった。「キャンペーン開催中」や「20%OFF」といった販促バナー、スマホアプリの「設定」「履歴」のようなUIラベル、ポスターの見出し文字——これまで諦めるしかなかった日本語込みのビジュアル素材が、実務に耐えるレベルで出せるようになった可能性がある。
実際に触った日本語ユーザーからは「日本語のテキストがほぼ崩れない」「広告バナー、インフォグラフィック、業務フロー図まで、そのまま資料として使えるレベル」という評価が出始めている。
1プロンプトで最大8枚、キャラクターも保つ
Thinkingモードで可能になるもう1つの機能が、1つの指示から最大8枚の一貫性ある画像をまとめて生成することだ。登場人物、オブジェクト、スタイルを各シーンで保ったまま連続させられる。
OpenAIはユースケースとして1ページ分のマンガ、サイズ違いのSNS向けグラフィック一式、1軒の家の各部屋のデザイン案を挙げている。ストーリーボード制作や複数サイズ展開を伴うマーケティング素材の作成が、ひとつのプロンプトで完結するという発想だ。
Thinkingモードは、ChatGPTの「thinking」または「pro」モデルを選択したときに起動する。ウェブ検索、複数画像の同時生成、自己検証までを生成前に内側で回す仕組みで、Plus、Pro、Businessの有料プランに提供される。
これまでは1枚ずつ生成し、人間が手作業でつなぎ合わせる必要があった。Images 2.0は、そのつぎはぎ作業をモデルの内側に取り込んだ、と見るのが分かりやすい。
価格と利用条件
APIの料金は、画像入力が100万トークンあたり8ドル、出力が30ドル。テキストは入力5ドル、出力10ドルとなっている。1枚あたりの単価は、1024×1024解像度でLow品質が約0.006ドル、Medium約0.053ドル、High約0.211ドルだ。
従来のGPT Image 1.5と比べるとLow側は安くなり、High側は上振れる。ただしHighの価格には、2K解像度、複数画像の同時生成、Thinkingモードのウェブ検索まで含まれる。単純に「1枚の画像代」と考えるより、1タスク分の作業を委ねる料金と捉える方が実態に近い。
無料プランを含む全ChatGPTユーザーが即日Instant Modeを使える一方、Thinking Modeを含む高度な機能はPlus、Pro、Businessの有料プランに限定される。Enterpriseは近日対応予定だ。
| Free | Plus | Pro | Business | Enterprise | |
|---|---|---|---|---|---|
| Instantモード | ○ | ○ | ○ | ○ | ○ |
| Thinkingモード | — | ○ | ○ | ○ | 近日 |
| ウェブ検索 | — | ○ | ○ | ○ | 近日 |
| 複数画像生成 | — | ○ | ○ | ○ | 近日 |
| 自己検証 | — | ○ | ○ | ○ | 近日 |
残る課題と、その先にあるもの
Images 2.0も万能ではない。OpenAIは精密な物理的推論や、極めて密度の高いテクスチャ、細部まで構造的な正確性が求められる図解では、まだ追加の確認が必要なケースがあると認めている。Thinkingモードは最大2分程度の待ち時間が発生する点も、実運用では無視できない。
そしてもう一つ、冷静に考えておくべきテーマがある。リアルな画像の量産が誰にでもできるようになった現実だ。OpenAIは生成画像にC2PA規格のメタデータと不可視の電子透かしを埋め込んでいるとしているが、スクリーンショットや再圧縮でメタデータは簡単に消える。開発チーム内部でも「メタデータは万能薬ではない」という認識があるまま、今回のリリースは実行された。
画像生成AIの評価軸が、「絵の美しさ」から「情報設計の正確さ」へ移り始めた。2026年のImages 2.0は、その転換点として記憶されることになるかもしれない。
画像は装飾ではなく言語になった。これはOpenAI自身が公式発表で掲げた理念だ。うまい絵を描けるAIの時代は、もう競争軸ですらない。これからの勝負は、調べて、推論して、正確に情報を積み上げたビジュアルを出せるかどうかに移っていく。
その扉を、Images 2.0が押し開けた。
参照元
他参照
関連記事
- ChatGPT Pro、100ドル新層とPlus縮小の二面策
- OpenAIがCodexに「クロニクル」——Windows Recallの轍を踏むか
- OpenAIで同じ日に3人の幹部が退社、Soraと科学が消える
- サム・アルトマンのサイドハッスル、OpenAI IPO前夜に再燃する利益相反
- OpenAI流出メモ、Anthropic売上水増しと告発
- ChatGPT法務の幻想――弁護士費用はむしろ上がっている
- サム・アルトマン自宅に火炎瓶投げつけ、20歳の男を逮捕
- AI検索でブランドを売り込む新SEO産業、ゴールドラッシュの内幕
- OpenAIのCEOとCFOがIPO時期で対立、経営の亀裂が表面化
- ハリウッドに蔓延する「影のAI」、壊れゆく出世の梯子