論文深掘り Hugging Face 発表: 2026-05-12 HF ↑60

Training Long-Context Vision-Language Models Effectively with Generalization Beyond 128K Context

著者: Zhaowei Wang, Lishu Luo, Haodong Duan, Weiwei Liu, Sijin Wu ほか7名

要約

Long-context modeling is becoming a core capability of modern large vision-language models (LVLMs), enabling sustained context management across long-document understanding, video analysis, and multi-turn tool use in agentic workflows. Yet practical training recipes remain insufficiently explored, p…

#benchmark#multimodal#agent

Training Long-Context Vision-Language Models Effectively with Generalization Beyond 128K Context

要約

同じカテゴリの記事

On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment

World-R1: テキストから動画生成における3D制約の強化学習による整合

OpenWebRL: Demystifying Online Multi-turn Reinforcement Learning for Visual Web Agents