ClawGym: 効果的なClawエージェント構築のためのスケーラブルなフレームワーク
ClawGym: A Scalable Framework for Building Effective Claw Agents
要約
ローカルファイルやツール、永続的なワークスペース状態を扱うマルチステップのClaw型環境は、パーソナルエージェント開発において重要な舞台となっているが、検証可能な訓練データの合成やエージェント学習・評価を統合した体系的フレームワークが欠如しており、スケーラブルな開発が妨げられてきた。本論文ではこの課題に対し、Claw型パーソナルエージェントの全開発ライフサイクルを支援するフレームワーク「ClawGym」を提案する。具体的には、ペルソナ駆動のインテントとスキルに基づく操作から合成された1万3500件のフィルタリング済みタスクデータセット「ClawGym-SynData」を構築し、リアルなモックワークスペースとハイブリッド検証機構を組み合わせる。続いてブラックボックスのロールアウト軌跡に対するSFT(supervised fine-tuning)でClawGym-Agentsを訓練し、タスクごとのサンドボックスで並列ロールアウトを行う軽量パイプラインによる強化学習も探索する。さらに自動フィルタリングと人間-LLMレビューで調整した200インスタンスのベンチマーク「ClawGym-Bench」を構築し、信頼性の高い評価基盤を提供する。
筆者コメント
Claw型環境はSWE-bench系のコーディング特化タスクとは異なり、ファイル操作・ツール利用・状態管理を含むより汎用的なパーソナルコンピューティングシナリオを対象としている点が特徴的と見られる。類似フレームワークとしてOSWorldやDesktopEnvが挙げられるが、本研究はデータ合成からSFT・RLまでのフルパイプラインをひとつのフレームワークに統合しようとしている点でより実用寄りのアプローチと考えられる。ペルソナ駆動でタスクを合成するアイデアは、日本語ユーザー向けにローカライズする際にも応用できる可能性がある一方、日本語特有の入力方式(IMEなど)や文字コード問題がモックワークスペースの再現性に影響するリスクは否定できない。また13.5Kという規模のSynDataがどの程度多様性を担保できているかは論文本文を確認しないと判断が難しく、ハイブリッド検証機構の精度も実用上の鍵となるだろう。RL部分はまだ「探索」段階と記述されており、SFTベースモデルとの定量比較が今後の重要な焦点になると考えられる。GitHubリポジトリが近日公開予定とされているため、再現性の検証は公開後に改めて評価すべきだろう。
※ このコメントは本サイト独自のものです。論文・記事の公式見解ではありません。