2026-05-02

10件

論文深掘り arXiv 2026-04-30

RHyVE: LLM生成報酬仮説のための能力認識検証・フェーズ認識デプロイメント

LLM自動報酬設計に「いつ使うか」の検証層が加わり、RL実用化の安定性が向上しそう

強化学習（Reinforcement Learning）における報酬設計をLLM（大規模言語モデル）で自動化する研究が進む一方、生成された報酬関数が信頼できる学習目標になるかは未検証のままである。既存研究は報酬候補の生成・進化・選択に注力しており、いつ・どのフェーズでその報酬を使うかという「デプロイタイミング問題」は軽視されてきた。本研究はLLM生成報酬を「報酬仮説（reward hypothesis）」として扱い、その有用性が現在のポリシーの能力（competence）と学習フェーズに依存すると定式化する。提案手法RHyVEは、短いホライズンのフォーク検証（fork verification）を用いて少数の報酬仮説を比較し、能力認識・フェーズ認識でデプロイする。実験では、低能力フェーズでは報酬ランキングが信頼できないが、タスク依存の閾値を超えると有益になることを示した。スパースな操作タスクでは、フェーズ認識デプロイが性能向上と安定保持に貢献した。報酬生成とデプロイは連成問題として扱うべきという主張がなされている。

#llm#rl

論文深掘り arXiv 2026-04-30

本番Text-to-SQLシステムにおけるSQLの精度をエージェント非依存で評価するフレームワーク

スキーマ不要のSQL評価が、本番Text-to-SQLの品質管理を常時可能にするかもしれない

本番環境におけるText-to-SQL（T2SQL）の評価は、既存ベンチマークが対応できていない根本的な課題を抱えている。現行のルールベースSQLマッチングやスキーマ依存のセマンティックパーサーは、正解クエリやDB構造への参照を前提とするが、実運用ではこれらが得られないケースが多い。この乖離により本番T2SQLエージェントの品質劣化が無音で進行し、継続改善のフィードバック機構が存在しなかった。本研究はSTEF（Schema-agnostic Text-to-SQL Evaluation Framework）を提案。DBスキーマや正解クエリを一切必要とせず、ユーザー質問・拡張再定式化・生成SQLのみを自然言語入力として受け取り、0〜100のスコアを出力する。フィルターアライメント・セマンティック評価・評価者の信頼度を統合した複合メトリクスを採用し、GROUP BY許容やORDER BYデフォルト等の本番特有の正規化処理にも対応。継続的な本番監視とエージェント改善フィードバックループの実現を実証したとしている。

#agent#alignment#benchmark

論文 arXiv 2026-04-30

局所的高強度ソース項を持つ問題のための適応ウェーブレットベースPINN

物理情報ニューラルネットワーク(PINN)は微分方程式の求解に有望だが、ニューラルネットワーク固有のスペクトルバイアス(spectral bias)とマルチスケール現象に起因する損失不均衡という二つの根本的な限界を抱えている。本論文では、局所的高強度ソース項を持つ問題の極端な損失不均衡に対処するため、適応ウェーブレットベースPINN（AW-PINN）を提案する。提案手法は残差・教師あり損失に基づきウェーブレット基底関数を動的に調整し、高スケール特徴を持つ問題をメモリ効率よく扱える。また、損失関数の微分計算に自動微分を用いないため訓練が高速化される。手法は固定基底による事前学習フェーズと適応的なスケール・並進精緻化の二段階で構成される。理論的にはガウス過程極限とNTK構造を導出。過渡熱伝導やポアソン問題、振動流方程式、マクスウェル方程式など損失比が最大10^10:1に達するPDEで既存手法を一貫して上回ることを示した。

#benchmark

論文深掘り arXiv 2026-04-30

繰り返しクエリへの信頼性ある回答：テンプレート制約デコーディングによるText-to-SQL精度向上

企業のクエリログが資産に変わり、Text-to-SQLの信頼性が実用レベルに近づくかもしれない

大規模言語モデル（LLM）はText-to-SQL生成を革新したが、複雑なスキーマや未知スキーマにおける精度の不安定さと無効なSQL生成リスクが実運用の壁となっていた。本研究はTemplate Constrained Decoding（TeCoD）を提案する。TeCoDはラベル付きワークロード内のクエリパターンの反復性を活用し、過去の自然言語-SQLペアを再利用可能なテンプレートへ変換する。ファインチューニングされた自然言語推論（NLI）モデルを用いたテンプレート選択モジュールが、クエリの一致または拒否を効率的に判定。選択後は文法制約デコーディング（grammar-constrained decoding）を用いた新しい分割戦略により、SQL生成時の構文的妥当性と効率性を両立する。結果として、in-context learning（ICL）比で最大36%の実行精度向上と2.2倍の低レイテンシを実現したと主張している。

#coding#llm#fine-tuning

企業動向 Microsoft Research 2026-04-30

エージェントネットワークのレッドチーミング：AIエージェントが大規模に相互作用するとき何が壊れるか

Microsoft Researchは、AIエージェント同士が相互接続・連携する「エージェントネットワーク」における安全性リスクを分析した研究を発表した。個々のエージェントが安全に設計されていても、複数のエージェントが大規模に相互作用するエコシステム全体では安全性が保証されないという問題を指摘している。研究では、ネットワーク全体を対象としたレッドチーミング（攻撃的安全評価）手法を用いて、エージェント間の連携時に生じる脆弱性や予期せぬ障害点を洗い出している。個別エージェントレベルの安全対策では対処できないネットワークレベルのリスクが存在するとし、それに対応するための新たなアプローチの必要性を主張している。マルチエージェントAIシステムの実用化が進む中、業界全体のセキュリティ設計思想に再考を促す内容と言える。

#agent

論文 arXiv 2026-04-30

長期的生産性シミュレーションのための大規模合成コンピュータ環境

【背景・課題】長期的な生産業務のAIエージェント訓練には、ユーザー固有のコンピュータ環境（ディレクトリ構造や文書・スプレッドシート等のリッチなアーティファクト）を反映した現実的な合成データが必要だが、そのスケーラブルな生成手法が欠如していた。【提案手法】本論文では「Synthetic Computers at Scale」という手法を提案する。リアルなフォルダ階層とコンテンツ豊富なアーティファクトを持つ合成コンピュータ環境を大規模生成し、その上で長期シミュレーションを実行する。一方のエージェントがユーザー固有の業務目標を設定し、別のエージェントがそのユーザーとして実際に作業を遂行する二段階構成を採る。【成果・貢献】1,000台の合成コンピュータ上でシミュレーションを実施し、各実行が平均2,000ターン超・8時間以上のエージェント稼働を要した。得られた学習シグナルはドメイン内外の生産性評価で有意な性能向上を示した。ペルソナが十億規模で存在する前提のもと、本手法は原理的に数百万〜数十億の合成環境へのスケールアップが可能とされ、エージェントの自己改善と強化学習の基盤となり得ると主張している。

#agent#rl#benchmark

論文 arXiv 2026-04-30

臨床グラフ構造リファイナーとしてのLLM：EEG発作診断における表現学習の強化

脳波（EEG）信号は自動発作検出に不可欠だが、固有のノイズが頑健な表現学習（representation learning）を困難にしている。既存のグラフ構築手法（相関ベース・学習ベース問わず）は、EEGデータのノイズ性に起因して冗長・無関係なエッジを生成しやすく、グラフ表現の品質低下と下流タスク性能の制限を招くという課題がある。本論文では、大規模言語モデル（LLM）の優れた推論・文脈理解能力に着目し、LLMをグラフエッジリファイナーとして活用する2段階フレームワークを提案する。まずTransformerベースのエッジ予測器とMLPで初期グラフを構築して各エッジに確率スコアを付与し、閾値処理で候補エッジを絞り込む。次にLLMがノードペアのテキスト的・統計的特徴の両方に基づき残存エッジの妥当性を判定することで冗長接続を除去する。TUSZデータセットでの実験により、提案手法がタスク性能を向上させるとともに、よりクリーンで解釈可能なグラフ表現を実現することを示している。

#llm

論文 arXiv 2026-04-30

PhyCo: 生成モーションのための制御可能な物理的事前分布の学習

現代のビデオ拡散モデル(video diffusion model)は外観合成には優れているが、物体の漂流・衝突時の非現実的な跳ね返り・素材応答の不整合など、物理的一貫性に課題を抱える。本論文はPhyCoを提案する。これは連続的・解釈可能・物理的根拠を持つ制御をビデオ生成に導入するフレームワークである。主要コンポーネントは3つ：(i) 摩擦・反発係数・変形・力を多様なシナリオで系統的に変化させた10万件超のフォトリアリスティックなシミュレーション動画データセット、(ii) ピクセル整合した物理特性マップを条件とするControlNetを用いた事前学習済み拡散モデルの物理監督ファインチューニング、(iii) ファインチューニングされた視覚言語モデル(VLM)が物理クエリで生成動画を評価し微分可能なフィードバックを提供するVLMガイドド報酬最適化。推論時にシミュレータや幾何再構成を必要とせず、Physics-IQベンチマークで物理リアリズムを強力なベースラインより大幅に向上させたとしている。

#diffusion#fine-tuning#multimodal#benchmark

論文 arXiv 2026-04-30

PRISM: マルチモーダル強化学習のためのブラックボックスオンポリシー蒸留による事前アライメント

大規模マルチモーダルモデル(LMM)のポストトレーニングでは、教師あり微調整(SFT)後に検証可能な報酬を用いた強化学習(RLVR)を適用する手順が一般的だが、SFTによる分布ドリフト(distributional drift)が問題となる。特にマルチモーダル推論では、知覚エラーと推論失敗が異なるドリフトパターンを示し、後続のRLで複合的に悪化する。本論文はこれを解消する3段階パイプラインPRISMを提案する。SFTとRLVRの間に明示的な分布アライメント段階を挿入し、オンポリシー蒸留(OPD)の原理に基づき、知覚・推論に特化したMixture-of-Experts(MoE)識別器との敵対ゲームとして定式化する。教師のロジットへのアクセスを不要とするブラックボックス方式で補正信号を与える。さらにGemini 3 Flashから11.3万件の高品質デモを追加収集。Qwen3-VLを用いた実験で、GRPO・DAPO・GSPOの複数RLアルゴリズムにわたり、4Bと8Bモデルでそれぞれ平均精度+4.4・+6.0ポイントの改善を達成したと報告している。コード・データ・モデルは公開済みである。

#multimodal#alignment#rl#fine-tuning#benchmark

企業動向 Google Research 2026-05-01

グローバルパートナーシップとオープンリソースを通じた科学的インパクトの加速

本ブログ記事は、AI技術を活用した科学研究の加速を目的として、グローバルなパートナーシップの構築とオープンリソースの提供を推進する取り組みについて述べているものと見られる。データマイニングおよびモデリングを主軸に据え、研究機関や産業界との連携を深めることで、科学的発見のサイクルを短縮し、より広範なコミュニティへの知見の開放を目指すとしている。オープンリソース戦略により、特定の企業や研究機関に限定されない形でAIツールや成果物が共有され、分野横断的な研究の民主化が促進されると主張している。こうした動きは、創薬・気候変動・材料科学など社会課題に直結する領域における研究スピードの向上に寄与し、業界全体のオープンサイエンスへの流れを後押しするものと位置づけられている。