Claw-Eval-Live: 進化する実世界ワークフロー向けライブエージェントベンチマーク
Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows
要約
背景・課題:LLM(大規模言語モデル)エージェントはソフトウェアツールやビジネスサービスにまたがるエンドツーエンドの作業を完遂することが期待されている。しかし既存のエージェントベンチマークの多くはリリース時点でタスクセットが固定され、最終応答のみを評価するため、変化するワークフロー需要への対応力やタスクの実際の実行可否を検証することが困難であった。提案手法:本論文はClaw-Eval-Liveを提案する。これは外部の実ワークフロー需要シグナル(現リリースではClawHub Top-500スキル)から構築された更新可能なシグナル層と、再現可能なタイムスタンプ付きリリーススナップショットを分離したライブベンチマークである。採点には実行トレース・監査ログ・サービス状態・実行後ワークスペース成果物を記録し、証拠が十分な場合は決定論的チェック、意味的次元にのみ構造化LLM判定を用いる。成果・貢献:105タスク・13フロンティアモデルを評価した結果、最高モデルでも正答率66.7%にとどまり、HRや複数システム連携ビジネスワークフローが依然としてボトルネックであることが示された。
筆者コメント
本ベンチマークの最大の特徴は「ライブ性」と「実行検証」の両立にある。従来の代表的エージェントベンチマーク(GAIA、AgentBench、ToolBench等)は静的タスクセットが主流であり、評価指標も最終出力の正誤に偏りがちであった。Claw-Eval-Liveはワークフロー需要の更新と実行トレース検証を組み合わせることで、エージェントが「答えを知っているか」ではなく「実際に動かせるか」を問う設計思想になっている点が重要と考えられる。実務応用の観点では、ERP・HR・CRMといった基幹業務サービスを対象としている点が企業への応用を強く意識しており、日本企業特有のレガシーシステムや独自SaaSとの連携を想定する場合はタスク設計の見直しが必要になると見られる。また日本語UIや日本語ドキュメントを扱うワークフローへの適用時には、LLM judging部分での言語バイアスにも留意すべきだろう。再現性については、ClawHubという独自プラットフォームへの依存度や、fixture・サービス環境の公開範囲が論文外での評価実施の障壁になる可能性がある。フロンティアモデル最高値が66.7%という結果は、ベンチマークの難易度設定の適切さを示すとともに、現時点でのワークフローエージェントの限界を定量的に可視化しており、実務導入判断の指針として活用できると考えられる。
※ このコメントは本サイト独自のものです。論文・記事の公式見解ではありません。