論文 arXiv 発表: 2026-04-30

長期的生産性シミュレーションのための大規模合成コンピュータ環境

Synthetic Computers at Scale for Long-Horizon Productivity Simulation

著者: Tao Ge, Baolin Peng, Hao Cheng, Jianfeng Gao

要約

【背景・課題】長期的な生産業務のAIエージェント訓練には、ユーザー固有のコンピュータ環境（ディレクトリ構造や文書・スプレッドシート等のリッチなアーティファクト）を反映した現実的な合成データが必要だが、そのスケーラブルな生成手法が欠如していた。【提案手法】本論文では「Synthetic Computers at Scale」という手法を提案する。リアルなフォルダ階層とコンテンツ豊富なアーティファクトを持つ合成コンピュータ環境を大規模生成し、その上で長期シミュレーションを実行する。一方のエージェントがユーザー固有の業務目標を設定し、別のエージェントがそのユーザーとして実際に作業を遂行する二段階構成を採る。【成果・貢献】1,000台の合成コンピュータ上でシミュレーションを実施し、各実行が平均2,000ターン超・8時間以上のエージェント稼働を要した。得られた学習シグナルはドメイン内外の生産性評価で有意な性能向上を示した。ペルソナが十億規模で存在する前提のもと、本手法は原理的に数百万〜数十億の合成環境へのスケールアップが可能とされ、エージェントの自己改善と強化学習の基盤となり得ると主張している。

筆者コメント

本研究はMicrosoftのグループによるものと見られ、Copilotや類似のプロダクティビティエージェントの訓練基盤強化を念頭に置いていると推察される。先行研究としてはOSWorld、WindowsAgentArena、Spider2-Vなどのコンピュータ操作ベンチマークが存在するが、それらは主に評価用の静的環境にとどまる。本手法は訓練データの生成側に踏み込み、ユーザー環境ごとの文脈依存性を大規模に再現しようとしている点が新しいと考えられる。実務応用の観点では、日本語環境への適用時にファイル名・フォルダ名・文書内容の日本語自然性をどう担保するかが課題になると見られる。英語ベースのLLMで生成した合成環境を日本語業務に転用するとドメインギャップが生じる懸念もある。また、1シミュレーションあたり8時間超のエージェント稼働は計算コストが非常に高く、数百万規模への拡張には相当のインフラ投資が必要と考えられる。さらに合成データの品質管理（幻覚的アーティファクトの混入等）やプライバシー設計も実用化に向けた重要論点であり、論文本文での詳細な記述を確認する必要があると判断する。エージェントの自己改善ループという観点では、STaR系やRSTARなど推論特化の手法との比較・統合も今後の研究として興味深い。

※ このコメントは本サイト独自のものです。論文・記事の公式見解ではありません。

#agent#rl#benchmark

長期的生産性シミュレーションのための大規模合成コンピュータ環境

要約

筆者コメント

同じカテゴリの記事

On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment

World-R1: テキストから動画生成における3D制約の強化学習による整合

OpenWebRL: Demystifying Online Multi-turn Reinforcement Learning for Visual Web Agents