論文 Hugging Face 発表: 2026-04-15 HF ↑7

UniDoc-RL: 階層的アクションと密集報酬による粗密段階的ビジュアルRAG

UniDoc-RL: Coarse-to-Fine Visual RAG with Hierarchical Actions and Dense Rewards

著者: Jun Wang, Shuo Tan, Zelong Sun, Tiancheng Gu, Yongle Zhao ほか3名

要約

大規模ビジョン言語モデル(LVLM)を外部ビジュアル知識で拡張するRetrieval-Augmented Generation (RAG)について、既存システムが細粒度のビジュアルセマンティクスを見落としている問題に対し、UniDoc-RLを提案します。このフレームワークはLVLMエージェントが検索・再ランク付け・能動的ビジュアル認識・推論を統合的に実行する強化学習(RL)ベースのシステムです。粗粒度のドキュメント検索から細粒度の画像選択・領域クロップへと段階的に改善する階層的アクション空間により、無関連コンテンツを抑制し情報密度の高い領域に注目します。エンドツーエンド学習のため、各アクションにタスク認識監督を提供する密集マルチ報酬スキームを導入し、Group Relative Policy Optimization (GRPO)に基づき価値ネットワークなしで目的関数の整合を実現。3つのベンチマークでの実験により、先行RL手法比で最大17.7%の性能向上を達成したと報告しています。

#multimodal#agent#rag#rl#benchmark

同じカテゴリの記事