Nemotron Nano Omni公開、視覚音声言語を統合
NVIDIAが視覚・音声・言語を1モデルに統合した「Nemotron 3 Nano Omni」を公開した。Foxconn、Palantir、Oracleら大手が採用検証に動き、エージェント時代の知覚レイヤーを巡る競争に、新たな駒が投じられた。
NVIDIAが視覚・音声・言語を1モデルに統合した「Nemotron 3 Nano Omni」を公開した。Foxconn、Palantir、Oracleら大手が採用検証に動き、エージェント時代の知覚レイヤーを巡る競争に、新たな駒が投じられた。
視覚・音声・言語を別モデルで束ねる構造に終止符を打ちにきた
NVIDIAが日本時間2026年4月29日未明、新しいマルチモーダル基盤モデル「Nemotron 3 Nano Omni」を公開した。映像、音声、画像、テキストを単一のモデル内で処理する、いわゆるオムニモーダル型のオープンモデルである。
これまでAIエージェントの世界では、視覚はビジョンモデル、音声は音声認識モデル、言語は大規模言語モデル(LLM)というように、別々のモデルをパイプラインで繋ぐ構成が主流だった。各モデル間で情報を受け渡すたびに推論が走り、文脈が分断され、レイテンシとコストが積み上がっていく。これがエージェント運用の典型的なボトルネックになっていた。
NVIDIAの狙いは、このスタックの単一化にある。30B-A3Bのハイブリッド型MoE(Mixture-of-Experts、専門家を混在させる手法)アーキテクチャを採用し、視覚エンコーダーと音声エンコーダーを言語モデルに統合した構造だ。発表によれば、同じインタラクティビティ条件下で従来のオープンなオムニモデル比で最大9.2倍のスループットを実現するという。
数字だけを見ても本当の意味は伝わらないが、要するに「同じレスポンスの速さで何倍の同時利用者を捌けるか」を比較した値だ。エージェント運用のコスト構造に直接効いてくる指標になる。
Foxconn、Palantir、Oracleらが顔を揃えた採用リスト
今回の発表で目を引くのは、技術仕様よりもむしろ採用検証企業の顔ぶれである。
採用を表明した企業として、Aible、Applied Scientific Intelligence、Eka Care、Foxconn、H Company、Palantir、Pylerが挙がっている。さらに評価検証段階としてDell Technologies、Docusign、Infosys、K-Dense、Lila、Oracle、Zefrの名前が並ぶ。
製造業界のFoxconn、政府・防衛分野のPalantir、エンタープライズソフトウェアのOracleとDocusign、医療のEka Care、メディアのZefr。業界横断で揃ったこのラインナップが示すのは、単なるベンダー選定の話ではない。エージェント基盤の主導権争いが、すでに始まっているということだ。
特にH Company(フランスのAIスタートアップ、元Google DeepMind出身者が2024年に設立)のCEOが残したコメントが印象的だ。
役に立つエージェントを作るのに、画面を解釈するのに数秒も待つわけにはいかない。Nemotron 3 Nano Omniのおかげで、HD画質の画面録画をリアルタイムで解釈できるようになった。これは単なる速度向上ではなく、エージェントがデジタル環境を認識し操作する仕組みそのものを変える出来事だ。
H Companyの主力製品であるコンピューター操作エージェントは、これまで「画面を見て判断する」処理に時間がかかりすぎて実用が難しかった。Nemotron 3 Nano Omniは1920×1080ピクセルの解像度をネイティブで扱えるため、この壁を越えたという主張になる。
「ヒトの目と耳」になるサブエージェントという位置づけ
NVIDIAがNemotron 3 Nano Omniに与えた役割は、単独で完結するモデルではない。エージェント群の中で知覚を担当するサブエージェントとして設計されている。
具体的には、複雑な計画立案や長期的な推論はNemotron 3 Superや3 Ultraといった上位モデルが担い、Nemotron 3 Nano Omniは「目と耳」の役割で画面、音声、文書を解釈する。役割を明確に切り分けたモジュラー構造だ。
NVIDIAが想定する3つの主要ユースケースは、コンピューター操作エージェント、ドキュメントインテリジェンス、音声・映像理解の3領域。OSWorldベンチマークでは前世代のNemotron Nano VL V2の11.1から47.4へと、4倍以上のスコア改善を達成している。これはコンピューター操作タスクで「画面を理解して何をすべきか判断する」精度を測る指標であり、コンピューター操作エージェントの実用化において極めて重要な数字になる。
アーキテクチャの中身
技術的な構成を整理しておくと、テキスト処理にはNemotron 3 NanoのMamba2-TransformerハイブリッドMoEが使われ、視覚エンコーダーには「C-RADIOv4-H」、音声エンコーダーには「Parakeet」が採用されている。
注目すべきは3D畳み込みベースの時空間処理と、推論時のEVS(Efficient Video Sampling、効率的な映像サンプリング)レイヤーだ。多数のフレームから抽出される膨大な視覚トークンを、LLMが処理可能な範囲まで圧縮する仕組みになっている。
コンテキスト長は最大256kトークンに対応し、映像は最長2分、音声は最長1時間まで処理できる。エージェント運用で扱う実世界の入力サイズを意識した設計になっている。
注目に値するのは量子化版の精度だ。FP8とNVFP4の量子化版が同時公開されており、NVFP4版は実効ビット幅が4.98 bpwまで圧縮されている。ここまで攻めた圧縮で精度がどこまで落ちるかが、現場での採用可否を分ける勘所になる。サイズは61.5 GBから20.9 GBへと約3分の1。それでいて9つのマルチモーダルベンチマークで、量子化による精度低下は平均0.4ポイント以内に収まっている。ほぼ精度を保ったまま、3分の1のメモリで動かせる計算になる。
「オープン」を看板に掲げる戦略の意味
Nemotron 3シリーズの一貫した戦略は、徹底した「完全オープン」を看板にすることだ。
モデル重みだけでなく、訓練データセット、トレーニングレシピ、ファインチューニング用のクックブックまで公開している。Omni版のマルチモーダル訓練に使われたトークンは約1270億、ポストトレーニング用のサンプルは約1億2400万、強化学習環境は25種を超える。エンタープライズ向けのオープンモデルとしては業界最大規模の公開範囲となる。
なぜここまで開示するのか。これは推測になるが、エージェント時代の競争においてプラットフォームの主導権を握るには、ベンダーロックインを嫌う企業ユーザーに「いつでも逃げられる」という安心感を売る必要がある、という判断だろう。データやモデル重みが公開されていれば、規制対応やデータ主権の観点からも導入しやすい。
ただ、ライセンスは「NVIDIA Open Model Agreement」で完全なオープンソースではない。Apache 2.0やMITとは違い、商用利用は可能だがNVIDIA独自の条項が付いている。「オープン」という言葉の使い方には注意が必要な部分だ。
実際の利用は、Hugging Face、OpenRouter、build.nvidia.comに加え、Amazon SageMaker JumpStart、Oracle Cloud Infrastructure、近日中にMicrosoft Foundryでも提供される。Bitdeer AI、Crusoe、DigitalOcean、Together AIなど25以上のパートナープラットフォームが対応を表明している。
NVIDIA Jetson、DGX Spark、データセンター向けGPUまで、エッジからクラウドまで一貫したデプロイメントパスが用意されている点もNVIDIAらしい。ハードウェアからモデル、推論ランタイムまでを束ねる垂直統合戦略の延長線上にある製品だ。
エージェント時代の「知覚レイヤー」を誰が握るか
少し視点を引いて考えると、今回の発表が示しているのはNVIDIAだけの動きではない。
Google、Meta、Microsoftも独自のオムニモーダルモデルを進めており、OpenAIのGPT-4oもこのカテゴリーに属する。AIエージェントが企業システムに本格的に入り込むタイミングで、誰が知覚レイヤーを押さえるかは、過去のOSやブラウザの主導権争いに似た構造を持っている。
OSが何を見せるかを決めたように、エージェントの知覚モデルが「何を理解できるか」を決める。一度業務フローに組み込まれれば、置き換えコストは大きい。
その意味で、Foxconn、Palantir、Oracleといった企業がエコシステムに加わったことは、NVIDIAにとって単なる売上以上の価値を持つ。各社の業務文脈に最適化されたエージェントが構築されれば、それがNemotron 3シリーズへの依存を強めていく構造が出来上がる。
ただし、ここで皮肉な点もある。Nemotron 3 Nano Omniのモデルカードには、トレーニングにQwen3-VL-30B-A3B-Instruct、Qwen3.5-122B-A10B、gpt-oss-120bなどが使われたと明記されている。NVIDIAの「最先端モデル」も、競合のオープンモデルなしには成り立たない。オープンエコシステムは互いに食い合いながら前に進む構造になっている。
技術的には、視覚・音声・言語を1モデルに束ねる方向は今後の主流になるだろう。9倍のスループットという数字が現場で再現されるかどうかは、実装が積み重なるこれからにかかっている。本日からHugging Faceで重みが公開されており、開発者が触り始めれば数週間で実態が見えてくる。
NVIDIAは「ヒトの目と耳」を売っているように見えて、その実、エージェント時代のプラットフォームを売り込んでいる。Foxconn、Palantir、Oracleの名前が並ぶリストは、その戦略がすでに動き始めている証左にほかならない。
参照元
他参照