論文 Hugging Face 発表: 2026-04-29 HF ↑6

長期的生産性シミュレーションのための大規模合成コンピュータ環境

Synthetic Computers at Scale for Long-Horizon Productivity Simulation

著者: Tao Ge, Baolin Peng, Hao Cheng, Jianfeng Gao

要約

背景・課題として、長期的な生産性タスクはユーザー固有のコンピュータ環境(ディレクトリ構造やコンテンツ豊富な成果物)に強く依存するが、そのような環境での合成データ(synthetic data)作成をスケールする手法が不足していた。本研究では「Synthetic Computers at Scale」と呼ぶスケーラブルな方法論を提案し、現実的なフォルダ階層と文書・表計算・プレゼン等のリッチな成果物を含む合成コンピュータ環境を生成する。各環境上で長期シミュレーションを実施し、一方のエージェント(agent)が約1ヶ月分の作業に相当する生産性目標を設定し、もう一方がそのユーザーとして実際に作業を遂行する。予備実験では1,000台の合成コンピュータを作成し、各実行が平均2,000ターン超・8時間以上のエージェント稼働を要するシミュレーションを実施。得られた学習シグナルにより、ドメイン内外の生産性評価でエージェント性能が有意に向上したと主張する。

筆者コメント

本研究は、WebArenaやOSWorldといった既存のコンピュータ操作ベンチマークが短期タスク中心であった課題に対し、ユーザーペルソナに紐づいた長期的・文脈依存的な作業環境をエージェント自身が生成・消費するという「環境合成→自己改善」のループを大規模に実現しようとする点で、方向性として非常に野心的と見られる。類似の合成データ生成アプローチとしてAgentTrekやSWE-benchの合成拡張などがあるが、ファイルシステム全体を含むリッチなユーザー世界を丸ごと生成する点は差別化されていると考えられる。一方で実務的な懸念もある。8時間超・2,000ターン超のシミュレーションは計算コストが極めて高く、1,000台規模でも相当なGPU/API費用が想定される。また合成コンピュータ内のドキュメントが英語中心で生成される場合、日本語環境や日本企業特有の業務フロー(稟議書、Excelマクロ文化など)への適用には追加の工夫が必要と見られる。さらに合成データ由来のバイアスがエージェントの実世界性能にどう影響するか、ドメイン外評価での改善幅の詳細が公開されるかどうかが再現性の観点で重要と考えられる。

※ このコメントは本サイト独自のものです。論文・記事の公式見解ではありません。

#agent#rl#benchmark

同じカテゴリの記事