論文 Hugging Face 発表: 2026-04-20 HF ↑30

CoInteract: 空間構造化共生成による物理的整合性を持つ人物-物体インタラクション動画合成

CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation

著者: Xiangyang Luo, Xiaozhe Xin, Tao Feng, Xu Guo, Meiguang Jin ほか1名

要約

人物と物体のインタラクション(HOI: Human-Object Interaction)動画合成は、ECや仮想マーケティングで実用価値が高い。しかし既存の拡散モデル(diffusion model)は、手や顔などの構造的安定性の欠如、および手と物体の干渉(interpenetration)といった物理的非整合の問題を抱えている。本論文ではCoInteractを提案する。人物参照画像・商品参照画像・テキストプロンプト・音声を条件として受け取るエンドツーエンドのHOI動画合成フレームワークである。Diffusion Transformer(DiT)をバックボーンとし、2つの機構を導入する。第一に、空間的に監督されたルーティングで領域特化型エキスパートにトークンを振り分けるHuman-Aware Mixture-of-Experts(MoE)を提案し、少ないパラメータ追加で構造的忠実度を向上させる。第二に、RGBストリームとHOI構造ストリームを同時学習するデュアルストリーム訓練パラダイム「Spatially-Structured Co-Generation」を提案し、推論時にHOIブランチを除去することでオーバーヘッドゼロを実現する。実験では既存手法を大幅に上回る結果を示した。

筆者コメント

本研究が興味深い点は、インタラクション幾何学の事前知識(geometry prior)を補助ストリームとして訓練時にのみ活用し、推論時にはゼロコストで除去する「知識蒸留的」なアーキテクチャ設計にある。これはControlNetが推論時も制御ブランチを保持するのと対照的であり、商用デプロイ時の計算コスト削減という観点で実務上の利点があると考えられる。MoEによる領域特化ルーティングは、手の構造崩壊という拡散モデル全般の弱点を正面から取り組んでいる点で評価できる。一方、懸念点もある。ECや広告への応用を謳っているため、日本国内での利用にあたっては薬機法・景品表示法との整合や、実在人物の肖像を参照画像として使う際の権利処理が課題になると見られる。また、音声を条件入力とする点は口元動作との同期を想定していると推測されるが、日本語音声への適応性については論文本文を確認していないため不明である。再現性の観点では、DiT + MoEの組み合わせは計算コストが相応に高い可能性があり、学習データや事前学習モデルの公開範囲も気になるところだ。HOI動画生成という実用性の高いタスクへのアプローチとして注目に値する論文と考えられる。

※ このコメントは本サイト独自のものです。論文・記事の公式見解ではありません。

#diffusion#speech

同じカテゴリの記事