論文深掘り arXiv 発表: 2026-05-07

Beyond Negative Rollouts: Positive-Only Policy Optimization with Implicit Negative Gradients

著者: Mingwei Xu, Hao Fang

要約

Reinforcement learning with verifiable rewards (RLVR), due to the deterministic verification, becomes a dominant paradigm for enhancing the reasoning ability of large language models (LLMs). The community witnesses the rapid change from the Proximal Policy Optimization (PPO) to Group Relative Policy…

#llm#rl#benchmark

Beyond Negative Rollouts: Positive-Only Policy Optimization with Implicit Negative Gradients

要約

同じカテゴリの記事

On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment

World-R1: テキストから動画生成における3D制約の強化学習による整合

OpenWebRL: Demystifying Online Multi-turn Reinforcement Learning for Visual Web Agents