論文 Hugging Face 発表: 2026-04-15 HF ↑21

RAD-2: 生成器-識別器フレームワークにおける強化学習のスケーリング

RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework

著者: Hao Gao, Shaoyu Chen, Yifan Zhu, Yuehao Song, Wenyu Liu ほか2名

要約

自動運転の運動計画では、マルチモーダルな将来の不確実性をモデル化しつつ、クローズドループ相互作用に対してロバストである必要があります。拡散ベース(diffusion-based)プランナーは複雑な軌跡分布のモデル化に有効ですが、模倣学習のみの訓練では確率的不安定性と負のフィードバック不足に陥りやすいという課題がありました。本論文では、クローズドループ計画のための統合的な生成器-識別器フレームワークRAD-2を提案します。拡散ベースの生成器が多様な軌跡候補を生成し、強化学習で最適化された識別器が長期的な運転品質に基づいて再ランク付けする設計により、高次元軌跡空間への直接的な報酬適用を回避し最適化安定性を向上させます。時間的一貫性グループ相対方針最適化(Temporally Consistent Group Relative Policy Optimization)とオンポリシー生成器最適化(On-policy Generator Optimization)により強化学習をさらに強化し、BEV-Warpという高スループット環境で大規模訓練を支援します。拡散ベースプランナーと比較して衝突率を56%削減し、実世界でも安全性と走行スムーズさの向上を実証しました。

#diffusion#rl#multimodal#agent#alignment

RAD-2: 生成器-識別器フレームワークにおける強化学習のスケーリング

要約

同じカテゴリの記事

On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment

World-R1: テキストから動画生成における3D制約の強化学習による整合

OpenWebRL: Demystifying Online Multi-turn Reinforcement Learning for Visual Web Agents