論文 Hugging Face 発表: 2026-05-17 HF ↑11

StableVLA: Towards Robust Vision-Language-Action Models without Extra Data

著者: Yiyang Fu, Chubin Zhang, Shukai Gong, Yufan Deng, Kaiwei Sun ほか5名

要約

It is infeasible to encompass all possible disturbances within the training dataset. This raises a critical question regarding the robustness of Vision-Language-Action (VLA) models when encountering unseen real-world visual disturbances, particularly under imperfect visual conditions. In this work, …

StableVLA: Towards Robust Vision-Language-Action Models without Extra Data

要約

同じカテゴリの記事

On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment

World-R1: テキストから動画生成における3D制約の強化学習による整合

OpenWebRL: Demystifying Online Multi-turn Reinforcement Learning for Visual Web Agents