論文 arXiv 発表: 2026-05-25

Global Convergence of Wasserstein Policy Gradient for Entropy-Regularized Reinforcement Learning

著者: Zhaoyu Zhu, Rui Gao, Shuang Li

要約

Wasserstein policy gradient (WPG) is a policy optimization method for reinforcement learning (RL) that exploits the optimal-transport geometry of action distributions. For the entropy-regularized RL objective, WPG evolves each state-conditional policy by transporting it along the action gradient of …

#llm#rl#diffusion

Global Convergence of Wasserstein Policy Gradient for Entropy-Regularized Reinforcement Learning

要約

同じカテゴリの記事

On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment

World-R1: テキストから動画生成における3D制約の強化学習による整合

OpenWebRL: Demystifying Online Multi-turn Reinforcement Learning for Visual Web Agents