論文 arXiv 発表: 2026-04-23

Tool Attention Is All You Need: スケーラブルなエージェントワークフローにおけるMCP/Toolsコストを排除する動的ツールゲーティングと遅延スキーマロード

Tool Attention Is All You Need: Dynamic Tool Gating and Lazy Schema Loading for Eliminating the MCP/Tools Tax in Scalable Agentic Workflows

著者: Anuj Sadani, Deepak Kumar

要約

大規模言語モデル(LLM)エージェントと外部ツールを接続するModel Context Protocol(MCP)は、ステートレスかつeagerなスキーマ注入に依存するため、マルチサーバー構成で1ターンあたり約1〜6万トークンの「MCPコスト(MCP Tax)」が発生する課題がある。この余分なトークンはKVキャッシュを膨張させ、コンテキスト使用率が約70%の「破断点」に近づくと推論性能の低下を招くとされる。本研究はこの問題に対し、トークン間の自己注意(self-attention)をツール間のゲート付き注意へ一般化する中間層機構「Tool Attention」を提案する。具体的には、文埋め込みによるIntent Schema Overlap(ISO)スコア、事前条件とアクセス範囲を制御するゲーティング関数、コンパクトな要約プールからtop-kのツールのみにフルJSONスキーマを昇格させる二段階遅延ローダーを組み合わせる。120ツール・6サーバーを模したシミュレーション評価では、ツールトークンを95%削減(47.3k→2.4k)し、有効コンテキスト利用率を24%から91%へ向上させたと報告している。

筆者コメント

論文の主張は明快であり、LLMエージェントのスケーラビリティのボトルネックが「コンテキスト長そのもの」より「プロトコルレベルの効率性」にあるという視点は実務的に重要と考えられる。ただし、評価の重大な限界として、エンドツーエンドの性能指標(タスク成功率・レイテンシ・コスト)は実際のLLMエージェント上での計測ではなく、トークン削減量と公開済みテレメトリから導いた「推計値」に過ぎないと論文自身が明記している点には注意が必要だ。実ワークロードでの検証なしに95%削減という数字が一人歩きするリスクがある。類似のアプローチとしてReAct、ToolFormer、あるいはRAGベースのツール選択手法との比較がアブストラクトでは示されておらず、手法の優位性の位置づけが不明瞭に見える。日本語環境への適用では、sentence embeddingによるISOスコアが日本語ツール説明文に対して有効に機能するかが懸念点であり、多言語対応モデルの選定が重要になると見られる。GitHubでコード公開されている点は再現性の観点で評価できるが、実サービスへの組み込みに際してはシミュレーション前提の評価結果を過信せず、自社環境での実測が不可欠と考えられる。

※ このコメントは本サイト独自のものです。論文・記事の公式見解ではありません。

#agent#llm#benchmark

同じカテゴリの記事