論文 arXiv 発表: 2026-05-19

Not Every Rubric Teaches Equally: Policy-Aware Rubric Rewards for RLVR

著者: Utkarsh Tyagi, Xingang Guo, MohammadHossein Rezaei, Daniel George, Anas Mahmoud ほか3名

要約

Reinforcement learning with verifiable rewards has made post-training highly effective when correctness can be checked automatically. However, many important model behaviors require satisfying several qualitative criteria at once. Rubric-based rewards address this setting by grading prompt-specific …

#rl#multimodal#benchmark

Not Every Rubric Teaches Equally: Policy-Aware Rubric Rewards for RLVR

要約

同じカテゴリの記事

On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment

World-R1: テキストから動画生成における3D制約の強化学習による整合

OpenWebRL: Demystifying Online Multi-turn Reinforcement Learning for Visual Web Agents