論文深掘り Hugging Face 発表: 2026-05-19 HF ↑27

You Only Need Minimal RLVR Training: Extrapolating LLMs via Rank-1 Trajectories

著者: Zhepei Wei, Xinyu Zhu, Wei-Lin Chen, Chengsong Huang, Jiaxin Huang ほか1名

要約

Reinforcement learning with verifiable rewards (RLVR) has become a dominant paradigm for improving reasoning in large language models (LLMs), yet the underlying geometry of the resulting parameter trajectories remains underexplored. In this work, we demonstrate that RLVR weight trajectories are extr…

#llm#rl#benchmark

You Only Need Minimal RLVR Training: Extrapolating LLMs via Rank-1 Trajectories

要約

同じカテゴリの記事

On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment

World-R1: テキストから動画生成における3D制約の強化学習による整合

OpenWebRL: Demystifying Online Multi-turn Reinforcement Learning for Visual Web Agents