RAD-2: 生成器-識別器フレームワークにおける強化学習のスケーリング
RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework
要約
自動運転の運動計画では、マルチモーダルな将来の不確実性をモデル化しつつ、クローズドループ相互作用に対してロバストである必要があります。拡散ベース(diffusion-based)プランナーは複雑な軌跡分布のモデル化に有効ですが、模倣学習のみの訓練では確率的不安定性と負のフィードバック不足に陥りやすいという課題がありました。本論文では、クローズドループ計画のための統合的な生成器-識別器フレームワークRAD-2を提案します。拡散ベースの生成器が多様な軌跡候補を生成し、強化学習で最適化された識別器が長期的な運転品質に基づいて再ランク付けする設計により、高次元軌跡空間への直接的な報酬適用を回避し最適化安定性を向上させます。時間的一貫性グループ相対方針最適化(Temporally Consistent Group Relative Policy Optimization)とオンポリシー生成器最適化(On-policy Generator Optimization)により強化学習をさらに強化し、BEV-Warpという高スループット環境で大規模訓練を支援します。拡散ベースプランナーと比較して衝突率を56%削減し、実世界でも安全性と走行スムーズさの向上を実証しました。