Netflix発のAIモデル「VOID」が映像編集の常識を書き換える

映像からオブジェクトを消すだけでなく、「消した後の物理法則」まで再現するAIフレームワークをNetflixがオープンソースで公開した。しかもApache 2.0ライセンスで、商用利用もできる。

情報の灯台

2026年4月6日

NETFLIX

「消す」だけでは足りなかった

映像からオブジェクトを除去するAIツールは、すでに数多く存在する。Runway、ProPainter、DiffuEraser。どれも「消した跡を自然に埋める」ことには長けている。影を消し、反射を補正し、背景を違和感なくつなげる。

だが、それだけでは解決できない問題があった。物理的な相互作用だ。

たとえば、人がギターを持っている映像から人だけを消すとしよう。従来のツールでは、ギターが宙に浮いたまま残る。人がプールに飛び込む映像から人を消せば、誰もいないのに水しぶきだけが上がる。映像としては破綻していても、AIは「消す」ことしか知らなかった。

0:00

/0:38

NetflixとINSAITソフィア大学の共同研究チームが公開したVOID（Video Object and Interaction Deletion）は、その限界を正面から突破しようとするフレームワークだ。

VOIDはオブジェクトの除去だけでなく、除去後に「残ったオブジェクトが物理的にどう振る舞うべきか」をシミュレートする。人を消せばギターは落ち、ボールを消せば衝突は起きなかったことになる。

4つの値が映像の因果を書き換える

VOIDの核心にあるのは「クアッドマスク」と呼ばれる仕組みだ。映像内の各領域を4つの値で分類する。0は除去対象、63は重なり領域、127は因果的に影響を受ける領域（落下するオブジェクトや軌道が変わるもの）、255は保持する背景。

ユーザーが除去対象をクリックすると、まずMetaのSAM2がオブジェクトをセグメンテーションする。次にGoogleのGemini 3 Proが「このオブジェクトが消えたら、シーン内の何が変わるか」を推論し、因果的に影響を受ける領域を特定してクアッドマスクに落とし込む。

技術的な基盤はAlibabaのCogVideoX-Fun-V1.5-5b-InP。50億パラメータの3Dトランスフォーマーベースの動画拡散モデルで、これをインタラクション対応のマスク条件付けでファインチューニングしている。

生成は2段階で進む。第1パスで物理的に整合性のある「反事実」映像を生成し、オブジェクトの形状が歪むモーフィングが検出された場合は、オプティカルフローによる第2パスで安定化を適用する。ほとんどの映像は第1パスだけで十分だという。

「並行世界」を作って学習させる

VOIDの学習データには独特のアプローチが採られている。通常の映像では「オブジェクトを消した場合の正解映像」が存在しない。そこで研究チームは、物理シミュレータを使って反事実データセットを生成した。

GoogleのKubricとAdobeのHUMOTOという2つのデータソースを使い、同じシーンの「オブジェクトがある版」と「ない版」をペアで生成。いわば「この宇宙」と「並行世界」の映像を用意し、モデルに反事実的な因果の差異を学習させた。

HUMOTOではBlender上で人間キャラクター（MixamoのRemyとSophie）がオブジェクトと相互作用するシーンを生成。人を除去すると物理シミュレーションにより支えを失ったオブジェクトが自然に落下する。物理設定ファイルには699のシナリオが手作業でラベル付けされている。

学習にはA100 80GB GPUを8基使用し、DeepSpeed ZeRO Stage 2で分散学習を実施している。

競合を大きく引き離すが、課題も残る

25人の評価者による比較調査では、VOIDは64.8%の支持率を獲得した。2位のRunwayが18.4%だから、差は歴然としている。ProPainter、DiffuEraser、MiniMax-Remover、ROSE、Gen-Omnimatteといった既存手法を、合成データと実世界データの両方で上回った。

ユーザー選好調査：VOIDと競合ツールの比較

VOID（Netflix）オープンソース

64.8%

Runway 商用ツール

18.4%

その他5ツール ProPainter / DiffuEraser / ROSE 等

16.8%

25人の評価者による複数シナリオでの選好調査。出典：arXiv:2604.02296

ただし、現時点での制約も小さくない。推論には40GB以上のVRAMが必要で、A100クラスのGPUがなければ動かせない。解像度は384×672がデフォルト、最大フレーム数は197。一般ユーザーが手軽に使える段階には、まだ遠い。

VOID モデル仕様一覧

項目	仕様
ベースモデル	CogVideoX-Fun-V1.5-5b-InP
パラメータ数	50億（5B）
デフォルト解像度	384×672
最大フレーム数	197
必要VRAM	40GB以上
VLM（マスク推論）	Gemini 3 Pro
セグメンテーション	SAM2（Meta）
学習環境	8×A100 80GB GPU
ライセンス	Apache 2.0

Pass 1のみで大半の映像に対応。Pass 2はオプティカルフローによる形状安定化（長尺クリップ向け）

Apache 2.0ライセンスでの公開という点は見逃せない。商用利用が明確に許可されており、Hugging Face上でモデルとデモが公開されている。コードはGitHubにも置かれ、Google Colabノートブックも用意されている。

「消せる」ことの意味を考える

Netflixはこの技術を社内に留めなかった。自社だけで使えば競争優位になるものを、あえて外に出している。研究コミュニティへの投資であり、映像AI編集の「基準」を自ら作りに行く動きでもあるだろう。

VOIDが示したのは、単なるオブジェクト除去の精度向上ではない。「映像内の因果関係を理解し、再構築する」という、これまでとは質の異なる能力だ。

映像から何かを「消す」技術がここまで進化すると、当然ながら懸念も浮かぶ。証拠映像の改ざん、歴史映像の書き換え、プライバシー侵害。The Registerのトーマス・クラバーンも記事の末尾で「世界が本当にこれ以上説得力のある映像操作を必要としているのかは、また別の問題だ」と問いかけている。

VOIDは「消す」技術に、因果の理解を持ち込んだ。それは映像編集にとっての進歩であり、映像の信頼性にとっては新たな問いだ。

参照元

他参照

The Register - Netflix jumps on the AI bandwagon with video editor

Netflix発のAIモデル「VOID」が映像編集の常識を書き換える

情報の灯台

「消す」だけでは足りなかった

4つの値が映像の因果を書き換える

「並行世界」を作って学習させる

競合を大きく引き離すが、課題も残る

「消せる」ことの意味を考える

関連記事

Read more

Corsair Strix Halo PCが突如1100ドル値上げ

AI評価の「3〜5人多数決」は不十分、Googleが示した新基準

塗装なし、ラジオなし、電動窓なし。Slateの電気ピックアップは「引き算」で勝負する

Anthropic、Google・Broadcomと数GW級TPU契約売上は3倍超

「消す」だけでは足りなかった

4つの値が映像の因果を書き換える

「並行世界」を作って学習させる

競合を大きく引き離すが、課題も残る

「消せる」ことの意味を考える

関連記事

Read more

Corsair Strix Halo PCが突如1100ドル値上げ

AI評価の「3〜5人多数決」は不十分、Googleが示した新基準

塗装なし、ラジオなし、電動窓なし。Slateの電気ピックアップは「引き算」で勝負する

Anthropic、Google・Broadcomと数GW級TPU契約 売上は3倍超

Anthropic、Google・Broadcomと数GW級TPU契約売上は3倍超