論文 Hugging Face 2026-04-15 HF ↑21
複雑な長期的リサーチタスクを解く深層研究エージェント(DRA)の評価は、動的なウェブ環境と曖昧なタスク定義により困難である。本論文は、マルチモーダル・マルチファイルレポート生成タスクの現実的で再現可能な評価ベンチマークDR^{3}-Evalを提案する。ベンチマークは実際のユーザー提供資料から構築され、オープンウェブの複雑性をシミュレートしつつ完全に検証可能な静的リサーチサンドボックスを含む。情報リコール(Information Recall)、事実精度(Factual Accuracy)、引用カバレッジ(Citation Coverage)、指示従循性、深さの質を測定する多次元評価フレームワークを導入し、人間判定との整合性を検証している。複数の最先端言語モデルに基づくDR^{3}-Agentの実験から、本ベンチマークが極めて困難であり、検索堅牢性と幻覚制御における重大な障害モードを明らかにすることを示した。
#agent#multimodal#alignment#benchmark
論文 Hugging Face 2026-04-15 HF ↑21
自動運転の運動計画では、マルチモーダルな将来の不確実性をモデル化しつつ、クローズドループ相互作用に対してロバストである必要があります。拡散ベース(diffusion-based)プランナーは複雑な軌跡分布のモデル化に有効ですが、模倣学習のみの訓練では確率的不安定性と負のフィードバック不足に陥りやすいという課題がありました。本論文では、クローズドループ計画のための統合的な生成器-識別器フレームワークRAD-2を提案します。拡散ベースの生成器が多様な軌跡候補を生成し、強化学習で最適化された識別器が長期的な運転品質に基づいて再ランク付けする設計により、高次元軌跡空間への直接的な報酬適用を回避し最適化安定性を向上させます。時間的一貫性グループ相対方針最適化(Temporally Consistent Group Relative Policy Optimization)とオンポリシー生成器最適化(On-policy Generator Optimization)により強化学習をさらに強化し、BEV-Warpという高スループット環境で大規模訓練を支援します。拡散ベースプランナーと比較して衝突率を56%削減し、実世界でも安全性と走行スムーズさの向上を実証しました。
#diffusion#rl#multimodal#agent#alignment
論文 Hugging Face 2026-04-15 HF ↑4
大規模言語モデル(LLM)の推論能力向上を目指す強化学習(RL)において、報酬設計やデータ合成に焦点が当たる中、本研究は モデルの内在的表現特性に着目する。長文脈処理時、クエリ・キーベクトル内に高振幅の活性化が存在することを観察し、モデル量子化の知見と長文脈推論の疎性構造の仮説から、これらの重みが最適化の鍵と主張する。提案手法LongActは、均一更新から顕著性誘導型疎更新へのシフトを実現し、LongBench v2で約8%の改善とRULERベンチマークの汎化性向上を達成した。GRPOやDAPOを含む複数のRLアルゴリズム間での普遍性を示し、顕著な特徴への焦点が長文脈の潜在能力解放の鍵であることを示唆している。
#rl#llm#benchmark
論文 Hugging Face 2026-04-15 HF ↑7
大規模ビジョン言語モデル(LVLM)を外部ビジュアル知識で拡張するRetrieval-Augmented Generation (RAG)について、既存システムが細粒度のビジュアルセマンティクスを見落としている問題に対し、UniDoc-RLを提案します。このフレームワークはLVLMエージェントが検索・再ランク付け・能動的ビジュアル認識・推論を統合的に実行する強化学習(RL)ベースのシステムです。粗粒度のドキュメント検索から細粒度の画像選択・領域クロップへと段階的に改善する階層的アクション空間により、無関連コンテンツを抑制し情報密度の高い領域に注目します。エンドツーエンド学習のため、各アクションにタスク認識監督を提供する密集マルチ報酬スキームを導入し、Group Relative Policy Optimization (GRPO)に基づき価値ネットワークなしで目的関数の整合を実現。3つのベンチマークでの実験により、先行RL手法比で最大17.7%の性能向上を達成したと報告しています。
#multimodal#agent#rag#rl#benchmark
論文 Hugging Face 2026-04-15 HF ↑6
本論文では、LLM分類エンドポイントの本番ログから得られる入出力ペアを活用し、軽量な代理モデル(surrogate)を訓練するシステムTRACERを提案します。代理モデルは将来のトラフィックの大部分を極めて低い推論コストで処理できます。提案手法は「パリティゲート」を用いて、代理モデルがLLMと一致する信頼度がユーザー指定の閾値αを超えた場合のみ展開します。解釈可能性アーティファクトにより、代理モデルが処理可能な入力領域や限界を可視化します。77クラスのインテント分類タスクではSonnet 4.6教師モデルに対し、83〜100%のカバレッジを達成し、150クラスではモデル完全置換も実現。自然言語推論タスクではパリティゲートが適切に展開を拒否しました。オープンソース化されています。
#llm#benchmark
論文 Hugging Face 2026-04-15 HF ↑4
従来のRetrieval-Augmented Generation (RAG)はLLMを受動的な検索結果の消費者として扱い、コーパスの組織構造を認識できないため、証拠の統合や遡行が困難という課題がある。本論文ではCorpus2Skillを提案し、事前にドキュメントコーパスを階層的スキルディレクトリに蒸留し、推論時にLLMエージェントが能動的にナビゲートできる仕組みを構築した。パイプラインは文書を反復的にクラスタリングし、各レベルでLLMが要約を生成し、結果をツリー構造として具現化する。推論時、エージェントはコーパス全体を俯瞰でき、段階的に詳細な要約から目的のトピックブランチを掘り下げ、IDで完全文書を検索できる。階層構造が明示的に可視化されるため、エージェントはどこを見るべきか推論でき、非生産的な経路から遡行し、複数ブランチから証拠を統合可能となり、WixQAベンチマークで従来手法を上回る成果を示した。
#agent#llm#rag#benchmark
論文 Hugging Face 2026-04-15 HF ↑8
ビジョン言語モデル(Vision-Language Models、VLM)は資源制約環境への展開が課題である。知識蒸留(Knowledge Distillation、KD)によるモデル圧縮が有効だが、既存手法はモダリティ(modality)ごとに個別に教師信号を与えるため、マルチモーダル知識の一貫性が失われる問題がある。本論文はSwitch-KDを提案し、学生モデルの視覚出力を教師モデルの言語経路に切り替えることで、共有テキスト確率空間内でマルチモーダル知識を統一的に転送する。Dynamic Bi-directional Logits Difference損失により、情報量の多い確率領域を適応的に整列させながら、双方向教師信号で分布構造を保持する。0.5BのTinyLLaVAが3Bの教師から効果的に知識を蒸留し、10個のマルチモーダルベンチマークで平均3.6ポイントの改善を達成した。
#multimodal#alignment#benchmark
論文 Hugging Face 2026-04-15 HF ↑4
テキスト駆動の生成モデル逆変換は、3Dコンテンツ操作の中核的なパラダイムですが、テキストプロンプトへの感度低下という課題があります。本論文は、最先端のテキスト・ツー・3D生成モデルにおいて、生成過程が"sink traps"と呼ばれる領域に陥り、プロンプト修正に対して鈍感になる現象を報告します。これはモデルの幾何学的表現能力の限界ではなく、分布外テキスト誘導に対する感度の問題であることを示唆しています。著者らは生成軌跡の分析を通じ、モデルの無条件生成先行情報(unconditional generative prior)を活用することで、複雑な幾何形状を生成可能であることを発見しました。提案手法はlatent sinkを回避し、幾何学的表現力と言語感度を分離することで、分布外の3D形状に対する堅牢なテキストベース編集を実現するとしています。
論文 Hugging Face 2026-04-15 HF ↑4
Vision-Language Model (VLM)は医療画像解釈を進歩させたが、既存手法では臨床医が最終出力を受け身で観察するのみで、推論過程の検証が困難である。本論文では、段階的で解釈可能なプロセスでCTレポート生成を行うツール利用型AIエージェント「RadAgent」を提案する。各レポートは中間的な判定とツール相互作用の追跡可能な痕跡を備え、臨床医が発見がどのように導出されたかを検査できる。実験結果から、RadAgentは3D VLM「CT-Chat」と比べ、macro-F1で6.0ポイント(相対36.4%)、micro-F1で5.4ポイント(相対19.6%)の臨床精度向上、敵対的条件下で24.7ポイント(相対41.9%)のロバスト性向上を達成した。さらに、既存VLMには存在しない忠実性(Faithfulness)で37.0%を達成し、放射線科における透明で信頼性の高いAIへの進展をもたらす。
#agent#multimodal
論文 Hugging Face 2026-04-15 HF ↑5
本論文は、フローマッチング(flow matching)モデルの人間の嗜好への適合を扱う。報酬勾配(reward gradient)を微分可能な生成プロセスを通じて逆伝播する方法が有望だが、長い軌跡への逆伝播は膨大なメモリと勾配爆発をもたらす。そこで著者らはLeapAlignを提案する。連続する2つのリープ(leap)により長い軌跡を2ステップに短縮し、各リープで複数のODEサンプリングステップをスキップして潜在変数を予測する。リープの開始・終了タイムステップをランダム化することで、任意の生成ステップでの効率的で安定した学習を実現する。短縮された軌跡の長い生成経路との整合性に基づいて学習重みを割り当て、勾配の大きさに応じて重みを段階的に削減し安定性を向上させている。Fluxモデルの微調整において、LeapAlignは従来手法を上回る画像品質とテキスト整合性を実現している。
#fine-tuning#alignment
論文 Hugging Face 2026-04-15 HF ↑21
複雑な長期的リサーチタスクを解く深層研究エージェント(DRA)の評価は、動的なウェブ環境と曖昧なタスク定義により困難である。本論文は、マルチモーダル・マルチファイルレポート生成タスクの現実的で再現可能な評価ベンチマークDR^{3}-Evalを提案する。ベンチマークは実際のユーザー提供資料から構築され、オープンウェブの複雑性をシミュレートしつつ完全に検証可能な静的リサーチサンドボックスを含む。情報リコール(Information Recall)、事実精度(Factual Accuracy)、引用カバレッジ(Citation Coverage)、指示従循性、深さの質を測定する多次元評価フレームワークを導入し、人間判定との整合性を検証している。複数の最先端言語モデルに基づくDR^{3}-Agentの実験から、本ベンチマークが極めて困難であり、検索堅牢性と幻覚制御における重大な障害モードを明らかにすることを示した。
#agent#multimodal#alignment#benchmark
論文 Hugging Face 2026-04-15 HF ↑21
自動運転の運動計画では、マルチモーダルな将来の不確実性をモデル化しつつ、クローズドループ相互作用に対してロバストである必要があります。拡散ベース(diffusion-based)プランナーは複雑な軌跡分布のモデル化に有効ですが、模倣学習のみの訓練では確率的不安定性と負のフィードバック不足に陥りやすいという課題がありました。本論文では、クローズドループ計画のための統合的な生成器-識別器フレームワークRAD-2を提案します。拡散ベースの生成器が多様な軌跡候補を生成し、強化学習で最適化された識別器が長期的な運転品質に基づいて再ランク付けする設計により、高次元軌跡空間への直接的な報酬適用を回避し最適化安定性を向上させます。時間的一貫性グループ相対方針最適化(Temporally Consistent Group Relative Policy Optimization)とオンポリシー生成器最適化(On-policy Generator Optimization)により強化学習をさらに強化し、BEV-Warpという高スループット環境で大規模訓練を支援します。拡散ベースプランナーと比較して衝突率を56%削減し、実世界でも安全性と走行スムーズさの向上を実証しました。
#diffusion#rl#multimodal#agent#alignment
論文 Hugging Face 2026-04-15 HF ↑4
大規模言語モデル(LLM)の推論能力向上を目指す強化学習(RL)において、報酬設計やデータ合成に焦点が当たる中、本研究は モデルの内在的表現特性に着目する。長文脈処理時、クエリ・キーベクトル内に高振幅の活性化が存在することを観察し、モデル量子化の知見と長文脈推論の疎性構造の仮説から、これらの重みが最適化の鍵と主張する。提案手法LongActは、均一更新から顕著性誘導型疎更新へのシフトを実現し、LongBench v2で約8%の改善とRULERベンチマークの汎化性向上を達成した。GRPOやDAPOを含む複数のRLアルゴリズム間での普遍性を示し、顕著な特徴への焦点が長文脈の潜在能力解放の鍵であることを示唆している。
#rl#llm#benchmark
論文 Hugging Face 2026-04-15 HF ↑7
大規模ビジョン言語モデル(LVLM)を外部ビジュアル知識で拡張するRetrieval-Augmented Generation (RAG)について、既存システムが細粒度のビジュアルセマンティクスを見落としている問題に対し、UniDoc-RLを提案します。このフレームワークはLVLMエージェントが検索・再ランク付け・能動的ビジュアル認識・推論を統合的に実行する強化学習(RL)ベースのシステムです。粗粒度のドキュメント検索から細粒度の画像選択・領域クロップへと段階的に改善する階層的アクション空間により、無関連コンテンツを抑制し情報密度の高い領域に注目します。エンドツーエンド学習のため、各アクションにタスク認識監督を提供する密集マルチ報酬スキームを導入し、Group Relative Policy Optimization (GRPO)に基づき価値ネットワークなしで目的関数の整合を実現。3つのベンチマークでの実験により、先行RL手法比で最大17.7%の性能向上を達成したと報告しています。
#multimodal#agent#rag#rl#benchmark