Netflix発のAIモデル「VOID」が映像編集の常識を書き換える
映像からオブジェクトを消すだけでなく、「消した後の物理法則」まで再現するAIフレームワークをNetflixがオープンソースで公開した。しかもApache 2.0ライセンスで、商用利用もできる。
映像からオブジェクトを消すだけでなく、「消した後の物理法則」まで再現するAIフレームワークをNetflixがオープンソースで公開した。しかもApache 2.0ライセンスで、商用利用もできる。
「消す」だけでは足りなかった
映像からオブジェクトを除去するAIツールは、すでに数多く存在する。Runway、ProPainter、DiffuEraser。どれも「消した跡を自然に埋める」ことには長けている。影を消し、反射を補正し、背景を違和感なくつなげる。
だが、それだけでは解決できない問題があった。物理的な相互作用だ。
たとえば、人がギターを持っている映像から人だけを消すとしよう。従来のツールでは、ギターが宙に浮いたまま残る。人がプールに飛び込む映像から人を消せば、誰もいないのに水しぶきだけが上がる。映像としては破綻していても、AIは「消す」ことしか知らなかった。
NetflixとINSAITソフィア大学の共同研究チームが公開したVOID(Video Object and Interaction Deletion)は、その限界を正面から突破しようとするフレームワークだ。
VOIDはオブジェクトの除去だけでなく、除去後に「残ったオブジェクトが物理的にどう振る舞うべきか」をシミュレートする。人を消せばギターは落ち、ボールを消せば衝突は起きなかったことになる。
4つの値が映像の因果を書き換える
VOIDの核心にあるのは「クアッドマスク」と呼ばれる仕組みだ。映像内の各領域を4つの値で分類する。0は除去対象、63は重なり領域、127は因果的に影響を受ける領域(落下するオブジェクトや軌道が変わるもの)、255は保持する背景。
ユーザーが除去対象をクリックすると、まずMetaのSAM2がオブジェクトをセグメンテーションする。次にGoogleのGemini 3 Proが「このオブジェクトが消えたら、シーン内の何が変わるか」を推論し、因果的に影響を受ける領域を特定してクアッドマスクに落とし込む。
技術的な基盤はAlibabaのCogVideoX-Fun-V1.5-5b-InP。50億パラメータの3Dトランスフォーマーベースの動画拡散モデルで、これをインタラクション対応のマスク条件付けでファインチューニングしている。
生成は2段階で進む。第1パスで物理的に整合性のある「反事実」映像を生成し、オブジェクトの形状が歪むモーフィングが検出された場合は、オプティカルフローによる第2パスで安定化を適用する。ほとんどの映像は第1パスだけで十分だという。
「並行世界」を作って学習させる
VOIDの学習データには独特のアプローチが採られている。通常の映像では「オブジェクトを消した場合の正解映像」が存在しない。そこで研究チームは、物理シミュレータを使って反事実データセットを生成した。
GoogleのKubricとAdobeのHUMOTOという2つのデータソースを使い、同じシーンの「オブジェクトがある版」と「ない版」をペアで生成。いわば「この宇宙」と「並行世界」の映像を用意し、モデルに反事実的な因果の差異を学習させた。
HUMOTOではBlender上で人間キャラクター(MixamoのRemyとSophie)がオブジェクトと相互作用するシーンを生成。人を除去すると物理シミュレーションにより支えを失ったオブジェクトが自然に落下する。物理設定ファイルには699のシナリオが手作業でラベル付けされている。
学習にはA100 80GB GPUを8基使用し、DeepSpeed ZeRO Stage 2で分散学習を実施している。
競合を大きく引き離すが、課題も残る
25人の評価者による比較調査では、VOIDは64.8%の支持率を獲得した。2位のRunwayが18.4%だから、差は歴然としている。ProPainter、DiffuEraser、MiniMax-Remover、ROSE、Gen-Omnimatteといった既存手法を、合成データと実世界データの両方で上回った。
ただし、現時点での制約も小さくない。推論には40GB以上のVRAMが必要で、A100クラスのGPUがなければ動かせない。解像度は384×672がデフォルト、最大フレーム数は197。一般ユーザーが手軽に使える段階には、まだ遠い。
| 項目 | 仕様 |
|---|---|
| ベースモデル | CogVideoX-Fun-V1.5-5b-InP |
| パラメータ数 | 50億(5B) |
| デフォルト解像度 | 384×672 |
| 最大フレーム数 | 197 |
| 必要VRAM | 40GB以上 |
| VLM(マスク推論) | Gemini 3 Pro |
| セグメンテーション | SAM2(Meta) |
| 学習環境 | 8×A100 80GB GPU |
| ライセンス | Apache 2.0 |
Apache 2.0ライセンスでの公開という点は見逃せない。商用利用が明確に許可されており、Hugging Face上でモデルとデモが公開されている。コードはGitHubにも置かれ、Google Colabノートブックも用意されている。
「消せる」ことの意味を考える
Netflixはこの技術を社内に留めなかった。自社だけで使えば競争優位になるものを、あえて外に出している。研究コミュニティへの投資であり、映像AI編集の「基準」を自ら作りに行く動きでもあるだろう。
VOIDが示したのは、単なるオブジェクト除去の精度向上ではない。「映像内の因果関係を理解し、再構築する」という、これまでとは質の異なる能力だ。
映像から何かを「消す」技術がここまで進化すると、当然ながら懸念も浮かぶ。証拠映像の改ざん、歴史映像の書き換え、プライバシー侵害。The Registerのトーマス・クラバーンも記事の末尾で「世界が本当にこれ以上説得力のある映像操作を必要としているのかは、また別の問題だ」と問いかけている。
VOIDは「消す」技術に、因果の理解を持ち込んだ。それは映像編集にとっての進歩であり、映像の信頼性にとっては新たな問いだ。
参照元
他参照
関連記事
- トーバルズ、Linux 7.0来週リリースへ rc7で最終確認
- YCがDelveを切り捨てた――AI時代の「信頼」が崩壊するとき
- Claudeサブスク、サードパーティ切り離しへ──OpenClaw問題の最終章
- Reddit最大のプログラミング板がLLM話題を全面禁止
- Claude Codeソース流出が招いた罠:偽リポジトリがマルウェアを配布
- Gemma 4 登場——自前ハードで動くオープンモデルが、ここまで来た
- イランのサイバー部隊がStrykerを壊滅させた手口と、FBIが学んだ教訓
- Claude Code流出で露になった「眠るAI」の全貌
- Red Hat流出メモ──AI全面移行を全エンジニアに号令
- Claude Codeのソースコード全文が流出、npmの設定ミスで51万行が丸見えに