論文 Hugging Face 発表: 2026-04-22 HF ↑28

WorldMark: インタラクティブ動画世界モデルのための統合ベンチマークスイート

WorldMark: A Unified Benchmark Suite for Interactive Video World Models

著者: Xiaojie Xu, Zhengyuan Lin, Kang He, Yukang Feng, Xiaofeng Mao ほか3名

要約

インタラクティブ動画生成(Interactive Video Generation)モデル(Genie、YUME、HY-World、Matrix-Gameなど)は急速に進化しているが、各モデルが独自のプライベートシーン・軌跡でのみ評価されており、公平なクロスモデル比較が不可能という課題がある。既存の公開ベンチマークは軌跡誤差や美的スコア、VLMベースの評価指標を提供するが、モデル間比較に必要な標準化されたテスト条件(同一シーン・同一行動シーケンス・統一制御インターフェース)を欠いている。本論文ではWorldMarkを提案する。これはImage-to-Video世界モデルの公平な比較基盤を提供する初のベンチマークであり、(1)WASDスタイルの共通行動語彙を各モデル固有の制御形式に変換する統一行動マッピング層、(2)一人称・三人称視点や写実的・様式化シーンを含む500評価ケースの階層的テストスイート、(3)視覚品質・制御整合性・世界一貫性を評価するモジュラーツールキット、の三要素で構成される。さらにオンラインアリーナプラットフォーム(warena.ai)も公開予定とされている。

筆者コメント

世界モデル(World Model)領域におけるベンチマーク整備の重要性は以前から指摘されてきたが、各モデルが異なる制御インターフェースを持つため公平比較が極めて困難という問題は長年放置されてきた。本論文はその根本的な障壁である「入力の異質性」をWASDスタイルの共通語彙層で吸収するアプローチを取っており、実務的な発想として評価できると考えられる。類似のベンチマーク整備としてはゲームAI分野のOpenAI Gym系やGodotベースの環境があるが、動画生成モデルに特化した標準化はほぼ空白地帯であった点で本論文の意義は大きいと見られる。一方、懸念点もある。WASDへの行動空間の統一が各モデルの能力を均質化・過小評価する可能性があること、500ケースのシーン多様性がどこまで現実の多様なユースケースをカバーするかは論文本文を確認していないため断言できない。日本語・日本的な映像スタイルへの適用においては、stylizedシーンの定義や文化的多様性が限定的である懸念もある。warena.aiのようなオンラインアリーナ形式はElo ratingベースの比較手法との親和性が高く、コミュニティ主導の評価拡張に期待が持てる。

※ このコメントは本サイト独自のものです。論文・記事の公式見解ではありません。

#benchmark#multimodal#alignment

同じカテゴリの記事