論文 arXiv 発表: 2026-05-14

ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both

著者: Ziyu Guo, Rain Liu, Xinyan Chen, Pheng-Ann Heng

要約

Visual reasoning, often interleaved with intermediate visual states, has emerged as a promising direction in the field. A straightforward approach is to directly generate images via unified models during reasoning, but this is computationally expensive and architecturally non-trivial. Recent alterna…

#agent#rl#benchmark

ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both

要約

同じカテゴリの記事

On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment

World-R1: テキストから動画生成における3D制約の強化学習による整合

OpenWebRL: Demystifying Online Multi-turn Reinforcement Learning for Visual Web Agents