論文 Hugging Face 発表: 2026-04-15 HF ↑4

LongAct: 長文脈強化学習における内在的活性化パターンの活用

LongAct: Harnessing Intrinsic Activation Patterns for Long-Context Reinforcement Learning

著者: Bowen Ping, Zijun Chen, Tingfeng Hui, Qize Yu, Chenxuan Li ほか2名

要約

大規模言語モデル(LLM)の推論能力向上を目指す強化学習(RL)において、報酬設計やデータ合成に焦点が当たる中、本研究はモデルの内在的表現特性に着目する。長文脈処理時、クエリ・キーベクトル内に高振幅の活性化が存在することを観察し、モデル量子化の知見と長文脈推論の疎性構造の仮説から、これらの重みが最適化の鍵と主張する。提案手法LongActは、均一更新から顕著性誘導型疎更新へのシフトを実現し、LongBench v2で約8%の改善とRULERベンチマークの汎化性向上を達成した。GRPOやDAPOを含む複数のRLアルゴリズム間での普遍性を示し、顕著な特徴への焦点が長文脈の潜在能力解放の鍵であることを示唆している。

#rl#llm#benchmark

LongAct: 長文脈強化学習における内在的活性化パターンの活用

要約

同じカテゴリの記事

On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment

World-R1: テキストから動画生成における3D制約の強化学習による整合

OpenWebRL: Demystifying Online Multi-turn Reinforcement Learning for Visual Web Agents