Grok 4.3が前世代の半額で登場、常時オン推論と音声クローン

情報の灯台

2026年5月2日

xAIがGrok 4.3を投入した。価格は前世代の半分以下。法務・財務系のベンチマークで首位を獲るかと思えば、汎用エージェントでは「ビッグ後退」の評価。賭けの色彩が濃い一手だ。

イーロン・マスクが法廷に立つ裏で、xAIは値段を切り下げる

イーロン・マスク（Elon Musk）が元同僚であるOpenAI共同創設者サム・アルトマン（Sam Altman）と法廷で対峙している間、マスクのxAIはOpenAIに挑むという当初の使命を放棄していない。今回xAIが投入した新型LLM「Grok 4.3」と、新しいウェブベースの音声クローンスイート「Custom Voices」は、競合と真っ向から殴り合うための弾だ。

Grok 4.3は2026年5月1日に一般公開された。VentureBeatはこのリリースを「攻撃的に低い価格」と表現している。実際、その通りだと思う。前世代のGrok 4.20は入力100万トークンあたり2ドル、出力6ドルだったが、Grok 4.3はそれぞれ1.25ドルと2.50ドルへ。出力側の圧縮率が特に大きい。

ただし200,000トークンを超えるリクエストには「Higher context pricing」が適用され、料金は倍になる。これはOpenAIやAnthropicが採用している階層型課金と同じ手法で、業界標準に揃えてきたかたちだ。

共同創設者10人が全員去ったあとの一手

このリリースの背景を語るには、xAIがここ1年で受けたダメージに触れざるをえない。

VentureBeatによれば、マスクと共にxAIを立ち上げた10人の共同創設者全員が同社を去った。さらに数十人の研究者も流出している。Grokの性能はOpenAI、Anthropic、Google、そして中国勢のDeepSeek、Moonshot（Kimi）、Alibaba（Qwen）、z.aiといった新興LLMに次々と追い抜かれた。

そしてGrok 4.3は、その状況を一気に挽回するための一手というよりは、「失った地盤を取り返すのではなく、別の場所に陣地を築く」戦略に見える。

独立系AI評価機関Artificial AnalysisのIntelligence Indexで、Grok 4.3のスコアは53だった。Grok 4.20の49からは4ポイント上昇したものの、GPT-5.5の60、Claude Opus 4.7の57には届かない。フロンティアモデルの座を取り戻したわけではない。

Grok 4.3は前世代より価格を下げたうえでスコアを上げた。しかし、フロンティア勢との差を埋めたわけではない。Pareto frontier（コスト対知能の効率限界）に位置するという表現が、この立ち位置を最もよく示している。

xAIが今回賭けたのは「総合力で勝つ」ではなく、特化領域での輝きと極端なコスト効率だ。

常時オン推論という設計思想と、その副作用

Grok 4.3の最大の構造変化は、推論の扱い方にある。

従来モデルでは「chain-of-thought」を切り替えたり強度を調整できたが、Grok 4.3は推論を常時オンの恒常状態として組み込んだ。すべてのクエリに対して、モデルは答える前に必ず思考する。

これは事実精度と複雑な多段階指示の処理を最大化するための設計判断だ。コンテキストウィンドウは100万トークン。中規模アプリケーションのコードベース全体や、分厚い小説数冊分に相当する。

技術的に見れば、これは正攻法だ。OpenAIのo1系列以降、推論を内部状態に統合する流れは業界の一つの潮流になっている。xAIはそれをデフォルトの状態として採用した。

ただ、ここに副作用がある。

VentureBeatの記事は、ユーザーコミュニティで報告されている「ナルコレプシー（narcolepsy）」現象に触れている。常に思考しているモデルが、ときに思考そのものに溺れて麻痺するというものだ。

具体例として記事が挙げているのは、Grok 4.3がOSRS（Old School RuneScape）の戦闘DPSアナライザーを構築する際、6分22秒にわたって「思考」フェーズに留まったケース。最終的に複雑なxlsxファイルを吐き出してはいるものの、6分22秒は対話用LLMとしては明らかに長い。

「常時思考」は、行動が必要なエージェント用途では必ずしもプラスに働かない。慎重さが過剰になると、行動を起こさないという選択につながる。

CaseLaw 1位、ProofBench 11%という極端な分布

Grok 4.3の評価は、見る指標によって結論が180度変わる。

独立評価機関Vals AIによれば、Grok 4.3はCaseLaw v2（米国・カナダの判例法ベンチマーク）で79.3%の精度で1位を獲得し、企業財務の分野を扱うCorpFin（v2）でも1位に立った。法律と金融という、論理構造の密度が高い領域で頭一つ抜けたかたちだ。

Artificial Analysisも、エージェントタスクのGDPval-AAでELO 1500を記録し、Gemini 3.1 ProやGPT-5.4 miniを上回ったと報告している。Grok 4.20の1179から321ポイントの跳躍だ。

Grok 4.3の得意・不得意マップ(主要ベンチマーク)

専門特化ドメイン(法務・財務)

CaseLaw v2 米国・カナダ判例法ベンチマーク(Vals AI)

79.3% / #1位

CorpFin 企業財務分析(Vals AI)

#1位

GDPval-AA エージェントタスクELO(Artificial Analysis)

1500(+321 vs 4.20)

汎用・数学・自律エージェント

Intelligence Index 総合知能指数(Artificial Analysis)

53(+4 vs 4.20)

ProofBench 数学難問証明(Vals AI)

11%

Vending-Bench 2 仮想自販機長期運用(Andon Labs)

ビッグ後退評価

出典: Vals AI(CaseLaw v2 / CorpFin / ProofBench)、Artificial Analysis(Intelligence Index v4.0 / GDPval-AA)、Andon Labs(Vending-Bench 2)。Vending-Bench 2の棒長は定性評価を相対表示したもの。

法務と財務でトップを獲ったという事実は、Grok 4.3が「常時オン推論」に賭けた設計が、密度の高い論理構造を持つドメインで実際に効いていることを示している。専門特化への戦略的傾倒が、少なくとも一部では結実した。

しかし、別の角度から見ると景色が一変する。

Vals AIの同じ評価で、Grok 4.3は数学の難問を扱うProofBenchでわずか11%しか取れなかった。汎用エージェント分野では、自律型小売企業Andon LabsがVending-Bench 2（仮想自販機ビジネスでの長期一貫行動を測る）で「ビッグ後退（big regression）」と評価している。

Andon Labsは現象を「ナルコレプシー的な問題」と表現し、必要な行動を取らずに複数の模擬日数にわたって非アクティブのまま留まる傾向があると指摘した。先ほどの「6分22秒の思考停滞」と地続きの話だ。

Custom Voices、120秒の音声でクローンが完成する

テキスト面での更新と並行して、xAIは音声クローン製品「Custom Voices」を投入した。

参照音声クリップは120秒で足りる。クローンされたvoice IDはxAIのText-to-Speech APIとVoice Agent APIの両方で使える。1ユーザーが30個まで作成可能で、ワンクリックで削除もできる。

xAIのドキュメントは、この製品が音色（timbre）の模倣ではなく、話し方のパターン（delivery pattern）を学習する点を強調している。「カスタマーサポート風」のリファレンスを録音すれば、生成される音声もカスタマーサポート的な抑揚を持つ。

VentureBeatの記者が実際に試したところ、自分の声と「不気味なほど同一」な音声が生成され、与えられた新しい台本も自分が読んだときと同じ発音で再現されたという。

価格は競合と比較するとミドル帯に位置する。Voice Agent API（grok-voice-think-fast-1.0）は1時間3.00ドル（1分0.05ドル）。Text-to-Speech API（Eve、Ara、Rex、Sal、Leoの5音声）は100万文字あたり4.20ドル。Speech-to-Text APIはリアルタイムストリーミングで1時間0.20ドル、バッチ処理なら0.10ドルだ。

音声サービス時間あたりコスト比較

OpenAI TTS (Standard)

$0.90

Azure / Google Cloud

$1.00〜1.50

OpenAI TTS (HD)

$1.80

Grok Voice Agent

$3.00

ElevenLabs (Pro)

$10.80

Play.ht

$12.00

ElevenLabs (Starter)

$18.00

単位: 米ドル / 時間。Grok Voice Agent($3.00/時)はxAI公式発表(grok-voice-think-fast-1.0、speech-to-speech)に基づく。他サービスはVentureBeatが各社公開価格から1時間換算した試算値。

ただし、音声クローン機能の地理的制限は厳しい。利用は米国限定で、生体情報・プライバシー規制を理由にイリノイ州だけ例外的に除外されている。プログラム経由のアクセス（POST /v1/custom-voices）はEnterpriseプラン契約者のみだ。

声を勝手に複製されるリスクへの配慮として、検証プロセスも組まれている。話者本人が検証フレーズを音読し、STTエンジンが内容を確認したうえで、音声埋め込みを比較して同一人物のものであることを確認する仕組みだ。既存の録音ファイルから他人の声を複製することはできない。

価格表で見る、Grok 4.3の立ち位置

VentureBeatが用意した比較表（出力1000万トークン基準）によれば、Grok 4.3は主要モデルのちょうど真ん中、入出力合計で3.75ドル（百万トークンあたり）の位置にいる。

主要LLM API価格比較(100万トークンあたり)

モデル	入力	出力	合計
MiMo-V2.5 Flash	$0.10	$0.30	$0.40
Grok 4.1 Fast	$0.20	$0.50	$0.70
MiniMax M2.7	$0.30	$1.20	$1.50
MiMo-V2.5	$0.40	$2.00	$2.40
Gemini 3 Flash	$0.50	$3.00	$3.50
Kimi-K2.5	$0.60	$3.00	$3.60
Grok 4.3	$1.25	$2.50	$3.75
GLM-5	$1.00	$3.20	$4.20
GLM-5-Turbo	$1.20	$4.00	$5.20
DeepSeek V4 Pro	$1.74	$3.48	$5.22
GLM-5.1	$1.40	$4.40	$5.80
Claude Haiku 4.5	$1.00	$5.00	$6.00
Qwen3-Max	$1.20	$6.00	$7.20
Gemini 3 Pro	$2.00	$12.00	$14.00
GPT-5.4	$2.50	$15.00	$17.50
Claude Opus 4.7	$5.00	$25.00	$30.00
GPT-5.5	$5.00	$30.00	$35.00

単位: 米ドル / 100万トークン。出典: 各社公式API価格ページ(VentureBeatが集計)。Grok 4.3は200,000トークン超のリクエストで料金が倍になる「Higher context pricing」が適用される。

同じ価格帯（3〜5ドル）にいるのは、GoogleのGemini 3 Flash、MoonshotのKimi-K2.5、Z.aiのGLM-5、AnthropicのClaude Haiku 4.5など
高価格帯にあるのはGPT-5.5（35ドル）、Claude Opus 4.7（30ドル）、GPT-5.4（17.50ドル）、Gemini 3 Pro（14ドル）
より安価なのは中国系のMiMo-V2.5系、MiniMax M2.7、xAI自身のGrok 4.1 Fast

つまりGrok 4.3は、中国オープンソース陣営の価格帯に肉薄する米国製プロプライエタリモデルだ。OpenAIやAnthropicの主力モデルとは戦わず、価格で勝負しに来ている。

xAIはこのほかにも独特な料金体系を導入している。プロンプトキャッシングは100万トークンあたり0.20ドルで、コンテキストの再利用を促す設計。ツール呼び出しは1000回あたり5ドル（Web SearchとCode Execution）または10ドル（File Attachments）。

そして特に目を引くのが「Usage Guideline Violation Fee」だ。安全フィルタが生成前にブロックしたリクエストに対して、xAIは0.05ドルを請求する。業界に新しい先例を作る可能性がある料金構造だと記事は指摘している。

エンタープライズ採用を妨げる、もう一つの要素

性能と価格だけで意思決定が完結するなら、Grok 4.3は法務テック・金融テックの企業にとって有力な選択肢になる。100万トークンの法的文書をClaude 4.6やGPT-5.5の数分の1のコストで処理できる、という記事の指摘はその通りだろう。

しかし、企業がGrokを採用するときの障壁は性能やコストだけではない。

VentureBeatは過去のGrokモデルが起こしたスキャンダルを列挙している。Xチャットボット版のGrokが自身を「MechaHitler」と称した件、反ユダヤ的コンテンツの投稿、性的なディープフェイク画像生成、人種紛争への言及、そして創業者マスク自身のXアカウントを参照してから回答するという、AIとしては異常な挙動。

これらの過去の問題が、Grok 4.3にも残っているかは不明だ。ただ、Grok 4.3のシステムプロンプトには「人々のグループに対して広範な肯定的・否定的効用関数を割り当てない」よう指示されているとの報告がある。これがどの程度効くかは、運用が始まってみないとわからない。

法務文書のように一字一句が法的責任を伴う領域で、過去に暴走履歴のあるモデルを採用するのか。処理コストが半額でも、社内のリスク管理部門の承認はまた別の論点だ。

まとめ：誰のためのGrok 4.3か

Grok 4.3は、すべての企業に勧められるモデルではない。

法務・財務の文書解析を、長文コンテキストで、低コストで回したい企業には現実的な選択肢になる。CaseLaw v2で1位という結果は、リップサービスではなく実測値だ。100万トークンを1.25ドルで読める性能は、検討に値する。

一方で、自律エージェント、高頻度のツール呼び出し、複雑な数学問題を扱うチームにとっては、まだ「もう数回チューニング」が必要に見える。Vending-Bench 2のビッグ後退と、ProofBench 11%という数字は、現時点では避けがたい。

低価格でエージェント性能が大きく跳ねたこと自体は、紛れもない前進だ。問題は、その性能が他のドメインでも保てるかにある。

参照元

他参照

Grok 4.3が前世代の半額で登場、常時オン推論と音声クローン

情報の灯台

イーロン・マスクが法廷に立つ裏で、xAIは値段を切り下げる

共同創設者10人が全員去ったあとの一手

常時オン推論という設計思想と、その副作用

CaseLaw 1位、ProofBench 11%という極端な分布

Custom Voices、120秒の音声でクローンが完成する

価格表で見る、Grok 4.3の立ち位置

エンタープライズ採用を妨げる、もう一つの要素

まとめ：誰のためのGrok 4.3か

関連記事

Read more

週4日勤務、生産性ではなく「時間の社会的再配分」が本質

サイバー攻撃で貨物が消える時代、FBIが警告

AIエージェントはもう内側にいる、ファイブアイズが警鐘

米軍AI契約8社、Anthropic外しの裏で進む二重構造