論文 arXiv 発表: 2026-04-30

PRISM: マルチモーダル強化学習のためのブラックボックスオンポリシー蒸留による事前アライメント

PRISM: Pre-alignment via Black-box On-policy Distillation for Multimodal Reinforcement Learning

著者: Sudong Wang, Weiquan Huang, Xiaomin Yu, Zuhao Yang, Hehai Lin ほか7名

要約

大規模マルチモーダルモデル(LMM)のポストトレーニングでは、教師あり微調整(SFT)後に検証可能な報酬を用いた強化学習(RLVR)を適用する手順が一般的だが、SFTによる分布ドリフト(distributional drift)が問題となる。特にマルチモーダル推論では、知覚エラーと推論失敗が異なるドリフトパターンを示し、後続のRLで複合的に悪化する。本論文はこれを解消する3段階パイプラインPRISMを提案する。SFTとRLVRの間に明示的な分布アライメント段階を挿入し、オンポリシー蒸留(OPD)の原理に基づき、知覚・推論に特化したMixture-of-Experts(MoE)識別器との敵対ゲームとして定式化する。教師のロジットへのアクセスを不要とするブラックボックス方式で補正信号を与える。さらにGemini 3 Flashから11.3万件の高品質デモを追加収集。Qwen3-VLを用いた実験で、GRPO・DAPO・GSPOの複数RLアルゴリズムにわたり、4Bと8Bモデルでそれぞれ平均精度+4.4・+6.0ポイントの改善を達成したと報告している。コード・データ・モデルは公開済みである。

筆者コメント

SFTからRLVRへの直結パイプラインにおける分布ドリフト問題は、テキスト単体のLLMでも議論されてきたが、本論文はマルチモーダル特有の「知覚エラーと推論エラーの混在」という難しさを丁寧に分解している点が評価できると考えられる。MoE識別器による信号の分離(disentanglement)は、RLHF系の研究でしばしば見られる報酬モデル設計の工夫と類似するが、ブラックボックス・レスポンスレベルで動作する点はAPI経由の強力なモデル(今回はGemini)を教師として活用しやすく実用性が高い。一方で、追加収集した11.3万件のデモがGemini 3 Flash由来である点は、ライセンスおよび商用利用可否の観点から日本企業が採用する際に慎重な確認が必要と見られる。また、アライメント段階の計算コスト(MoE識別器の訓練を含む)がSFT→RLVRの単純パイプラインと比較してどの程度増加するかは、本アブストラクトからは読み取れず、実務導入時の懸念点として残る。日本語マルチモーダルデータへの適用時には、視覚グラウンディングのアノテーション品質が知覚ドリフトに直結するため、データ構築コストも含めた総合評価が重要と考えられる。

※ このコメントは本サイト独自のものです。論文・記事の公式見解ではありません。

#multimodal#alignment#rl#fine-tuning#benchmark

同じカテゴリの記事