マイクロソフト、自社AIモデル3種でOpenAI依存脱却へ

OpenAIとの契約を書き換え、独自のAI開発に舵を切ったマイクロソフト。「超知能」を掲げるチームが最初に世に送り出したのは、文字起こし・音声生成・画像生成という地に足のついた3モデルだった。

情報の灯台

2026年4月3日

Microsoft

「超知能」チームが届けた、極めて現実的な第一弾

マイクロソフトが、完全に自社開発した3つのAIモデルを発表している。音声認識のMAI-Transcribe-1、テキスト読み上げのMAI-Voice-1、そして画像生成のMAI-Image-2。いずれもMicrosoft FoundryとMAI Playgroundを通じてすぐに利用できる。

注目すべきは、これらのモデルを生み出した組織の名前だ。2025年11月にムスタファ・スレイマン氏が結成した、マイクロソフトのAI自給自足を目指す「MAI超知能チーム」である。超知能という壮大な看板を掲げたチームの最初の成果物が、会議の文字起こしと音声合成だという事実に、思わず二度見した人も少なくないだろう。

だが、この「地味さ」こそが戦略の核心かもしれない。ChatGPTやGeminiのような派手な対話AIではなく、企業が日常的に金を払う実務領域を狙い撃ちにしている。

スレイマン氏はVentureBeatに対し「世界最高の文字起こしモデルをリリースできたことを大変嬉しく思う。しかも競合の半分のGPUで実現できた」と述べた。

3モデルの実力──数字が語るもの

	MAI-Transcribe-1	MAI-Voice-1	MAI-Image-2
種別	音声→テキスト	テキスト→音声	テキスト→画像
主要指標	WER 3.8%FLEURS 25言語で1位	1秒で60秒分生成単一GPU処理	Arena.ai 3位モデルファミリー
速度	Azure Fast比2.5倍	60倍リアルタイム	前世代比2倍超
価格	$0.36/時間約57円	$22/100万文字約3,500円	テキスト$5 / 画像$33100万トークンあたり
対応	25言語MP3/WAV/FLAC	カスタムボイス数秒の音声から複製	高品質画像生成インフォグラフィック対応
統合先	Copilot / Teams	Copilot Audio	Bing / PowerPoint

※価格は1ドル≒159円換算。全モデルMicrosoft Foundry・MAI Playgroundで提供。開発元はMAI超知能チーム。

MAI-Transcribe-1：25言語で最高精度を主張

今回の目玉は音声認識モデルだ。業界標準ベンチマークFLEURSにおいて、25言語の平均単語誤り率（WER）は3.8%。マイクロソフトの主張によれば、OpenAIのWhisper-large-v3を25言語すべてで上回り、GoogleのGemini 3.1 Flashにも25言語中22言語で勝利したという。

処理速度も既存のAzure Fastの2.5倍を実現し、価格は1時間あたり0.36ドル（約57円）。MP3、WAV、FLACファイルに対応し、最大200MBまで処理できる。ただし現時点ではバッチ処理のみの対応で、リアルタイム文字起こしや話者分離機能は「近日公開」となっている。

すでにCopilotの音声モードやMicrosoft Teamsでのテスト導入が始まっており、サードパーティ製や旧式の社内モデルを自社製に置き換える意図は明確だ。

MAI-Voice-1とMAI-Image-2

音声生成モデルMAI-Voice-1は、単一GPUでわずか1秒で60秒分の音声を生成する。数秒のサンプル音声からカスタムボイスを作成する機能も備え、価格は100万文字あたり22ドル（約3,500円）。

画像生成モデルMAI-Image-2は、Arena.aiリーダーボードでモデルファミリー3位にランクインしており、前世代から生成速度が2倍以上に向上した。テキスト入力100万トークンあたり5ドル、画像出力100万トークンあたり33ドルで提供される。BingやPowerPointへの展開も進行中で、世界最大級の広告会社WPPが大規模導入の最初のパートナーとなっている。

3モデルに共通するのは「ハイパースケーラーの中で最安値」という価格戦略だ。スレイマン氏は「AmazonやGoogleよりも安くする。これは非常に意識的な決断だ」と明言している。

OpenAIとの契約が書き換えた力学

これらのモデルが生まれた背景には、契約上の「地殻変動」がある。

2025年10月まで、マイクロソフトは契約上、独自に汎用人工知能（AGI）を追求することを禁じられていた。2019年にOpenAIと結んだ当初の契約では、マイクロソフトはクラウドインフラを提供する代わりにOpenAIのモデルのライセンスを得るという構図だった。

ところがOpenAIがSoftBankなどと組んでマイクロソフト以外にもコンピューティング基盤を拡大し始めたことで、状況は変わる。スレイマン氏はVentureBeatに対し、「昨年9月にOpenAIとの契約を再交渉し、それによって独自に超知能を追求できるようになった」と語った。

改定後の契約では、マイクロソフトは独自のフロンティアモデルを構築できるようになり、同時に2032年までOpenAIが構築するすべてのモデルに対するライセンス権も保持する。パートナーでありながら潜在的な競合相手でもあるという、IT業界史上でも稀な関係が成立した。

10人未満のチームが競合を追い詰める構造

スレイマン氏がVentureBeatに明かした開発体制は、業界の常識からかけ離れている。音声モデルの開発チームは約10人。画像処理チームも同様に10人未満だという。

最先端のAI開発には数千人の研究者と数十億ドルの人件費が必要だというのが業界の通念だ。実際、Metaは「チームを作るのではなく、多くの個人を雇用する」戦略を公言している。トップレベルの研究者1人に対して1億ドルから2億ドルの報酬パッケージも含まれると報じられている。

対するマイクロソフトの手法は対照的だ。スレイマン氏は「私の哲学は常に、より少ない人数でより多くの権限を与えることだ」と語り、スタートアップのトレーディングフロアに似た環境で、50人から60人ほどが同じ部屋で朝から晩までコーディングしていると説明した。

マイクロソフトの10人のエンジニアが競合他社の半分のGPUで最高クラスの文字起こしモデルを構築できるのだとすれば、AI事業の利益構造は根本的に異なるものになりうる。

「超知能」の看板と現実のギャップ

評価すべき点は多い。モデルの性能は堅実で、価格設定は攻撃的。OpenAI依存から脱却するための技術基盤として、十分に合理的な第一歩だ。

一方で、「超知能」という言葉の使い方には違和感が残る。AIの批評家として知られるゲイリー・マーカス氏はXで「ゴールポストの移動にもほどがある。スレイマン氏の定義では『超知能』が『全人類を超える知能』から単なる『製品価値の提供』に変わった」と指摘した。

正直に言えば、この批判には一理ある。しかし見方を変えれば、マイクロソフトの立場は理にかなっている。ChatGPTやGeminiと正面から汎用LLMで競うのではなく、自社製品に深く統合される特化型モデルで足場を固める。Copilot、Teams、Bing、PowerPointという巨大な配布網を持つマイクロソフトにとって、「最も賢いモデル」より「最も安く使えるモデル」を自前で持つことの方が、経営的には遥かに重要だ。

投資家が求める「答え」はまだ先にある

この発表は、マイクロソフトにとって不安定な時期に行われている。同社の株価は年初来で約17%下落し、2008年の金融危機以来最悪の四半期を記録したばかりだ。投資家たちは、数千億ドル規模のAIインフラ投資がいつ収益に結びつくのかという問いを、日増しに強めている。

3つの特化型モデルは、その問いに対する直接的な回答にはならない。だが「OpenAIへのロイヤリティを払わずに自社製品のAI機能を動かせる」という事実は、コスト構造を根本から変えうる。マイクロソフトは社内製品（Teams、Copilot、Bing、PowerPoint）のインフラコストを削減し、開発者には市場最安値を提示する。この二重構造が機能すれば、AI投資の回収期間は確実に短くなる。

スレイマン氏は3月のメモで「今後数年間で必要とされる膨大な規模のAIワークロードに対応するために、売上原価の効率化を実現する」と述べている。超知能チームの3モデルは、その約束に対する最初の具体的な成果だ。

「超知能」チームの初手が文字起こしモデルだったことに、拍子抜けした人もいるだろう。だがマイクロソフトが本当に証明しようとしているのは、知能の高さではなく、独り立ちできるという事実そのものかもしれない。

参照元