← アーカイブ一覧
論文 深掘り Hugging Face 2026-04-29 HF ↑141
非言語科学モデルをLLMエージェントに接続する「異種AI協調」が研究開発インフラを塗り替えるかもしれない
科学分野では自然言語以外のデータ(分子構造・物理シミュレーション・ゲノム等)を扱うドメイン特化基盤モデル(domain-specific foundation model)が多数開発されているが、既存のエージェント型LLMシステムは言語を唯一のインターフェースとするため、これら専門モデルとの連携が困難だった。本研究では、ドメイン特化モデルに言語モデルベースの推論インターフェースを付加し、LLMが非言語データモダリティ上の推論を誘導できる異種エージェントフレームワーク「Eywa」を提案する。Eywaは単一エージェントパイプラインの代替(EywaAgent)、既存マルチエージェントシステムへの組み込み(EywaMAS)、さらに計画型オーケストレーション(EywaOrchestra)の3構成を持つ。物理・生命・社会科学にまたがる多様なタスクで評価した結果、構造化データやドメイン固有データを含むタスクで性能が向上し、言語のみへの依存を低減できることが示された。
#agent#llm#benchmark
論文 深掘り Hugging Face 2026-04-29 HF ↑14
画像編集AIの品質評価が「総合点」から「原則別チェック」に進化し、編集精度の底上げが加速しそう
テキストから画像生成においてRLHF(人間フィードバックからの強化学習)は主要なパラダイムとなっているが、画像編集への応用は未開拓のままだった。課題は、全編集タスクに対応できる汎用報酬モデルの欠如であり、既存モデルは総合スコアのみを出力し指示内容の詳細を無視していた。本研究はEdit-R1を提案し、Chain-of-Thought(CoT)推論を用いた検証器ベース報酬モデル(RRM:Reasoning Reward Model)を構築する。Edit-RRMは編集指示を個別の原則に分解し、各原則ごとに画像を評価してきめ細かな報酬を生成する。構築には教師あり微調整(SFT)でCoT軌跡を生成後、人間のペアワイズ選好データを活用する新アルゴリズムGCPO(Group Contrastive Preference Optimization)でRRMを強化する。その後GRPOで編集モデルを訓練。実験ではSeed-1.5/1.6-VLといった強力なVLMを上回り、3Bから7Bのパラメータスケールで性能向上のスケーリング則も確認された。
#rl#multimodal#fine-tuning#vision#benchmark
論文 深掘り Hugging Face 2026-04-29 HF ↑59
ビジュアル生成の評価軸が「見た目」から「因果・構造的整合性」へ移行し、製品選定基準が塗り替えられる可能性がある
近年のビジュアル生成モデル(visual generation model)はフォトリアリズムや文字描画、指示追従、インタラクティブ編集において大きな進歩を遂げた一方、空間推論・持続的状態管理・長期的一貫性・因果理解には依然として課題があると本論文は指摘する。著者らは「外見の合成」を超えた「インテリジェントなビジュアル生成」、すなわち構造・ダイナミクス・ドメイン知識・因果関係に根ざした生成へのシフトを主張する。この転換を整理するために、①アトミック生成、②条件付き生成、③インコンテキスト生成、④エージェント的生成、⑤世界モデリング生成という5段階の分類体系を提案。フローマッチングや統合理解・生成モデル、ポストトレーニング、報酬モデリング等の技術要因を分析し、現行評価指標が知覚的品質を重視するあまり構造・時間・因果の失敗を見逃し進歩を過大評価しているとも警告する。
#agent#benchmark
論文 Hugging Face 2026-04-29 HF ↑6
近年のマルチモーダル大規模言語モデル(MLLM)とコーディングエージェントの発展により、ウェブサイト開発は手動プログラミングからエージェントベースのコード合成へと移行しつつある。しかし既存のベンチマークは、構造化された高品質な入力と静的実行環境という理想化された前提に依存しており、現実のシナリオとかけ離れている。実際の開発現場では、非専門ユーザーの曖昧・低品質な指示とモデルの理解との意味的ミスアライン(semantic misalignment)が深刻なボトルネックとなり、筆者らが「盲目的実行(blind execution)」と呼ぶ失敗モードを生む。本研究ではこの課題に対し、非専門ユーザーのローコード条件下でのウェブサイト生成を評価する初のマルチモーダルインタラクティブベンチマーク「InteractWeb-Bench」を提案する。要件工学の欠陥分類に基づき4種類のユーザーエージェントとペルソナ駆動の指示摂動を導入し、曖昧性・冗長性・矛盾を含む多様なユーザー行動を体系的に模擬する。エージェントには「明確化・実装・検証・提出」からなる統一アクション空間を持つインタラクティブ実行環境を提供する。実験の結果、最先端のMLLMベースエージェントも依然として盲目的実行に陥りやすく、意図認識と適応的インタラクションに大きな限界があることが示された。
#agent#multimodal#llm#benchmark#alignment
論文 Hugging Face 2026-04-29 HF ↑26
ヒューマノイド制御において、ロボットと環境・物体との流暢なインタラクションをモデリングすることは依然として困難な課題である。空間的文脈・時間的ダイナミクス・ロボットの行動・タスク意図を大規模に同時捉える必要があり、従来の教師あり学習では対応が難しい。本論文ではExoActorを提案する。これは大規模ビデオ生成モデル(video generation model)の汎化能力を活用し、三人称視点(exocentric)のビデオ生成をインタラクションダイナミクスのモデリングのための統一インターフェースとして用いる新フレームワークである。タスク指示とシーン情報を入力として、ロボット・環境・物体間の協調的インタラクションを暗黙的にエンコードした実行プロセス動画を合成する。生成された動画は人体モーション推定と汎用モーションコントローラーを通じて実行可能なヒューマノイド行動へと変換され、タスク条件付き行動系列が得られる。エンドツーエンドシステムとして実装し、追加の実世界データ収集なしに新たなシナリオへの汎化が可能であることを実証した。
#robotics
論文 Hugging Face 2026-04-29 HF ↑14
背景・課題:LLM(大規模言語モデル)エージェントはソフトウェアツールやビジネスサービスにまたがるエンドツーエンドの作業を完遂することが期待されている。しかし既存のエージェントベンチマークの多くはリリース時点でタスクセットが固定され、最終応答のみを評価するため、変化するワークフロー需要への対応力やタスクの実際の実行可否を検証することが困難であった。提案手法:本論文はClaw-Eval-Liveを提案する。これは外部の実ワークフロー需要シグナル(現リリースではClawHub Top-500スキル)から構築された更新可能なシグナル層と、再現可能なタイムスタンプ付きリリーススナップショットを分離したライブベンチマークである。採点には実行トレース・監査ログ・サービス状態・実行後ワークスペース成果物を記録し、証拠が十分な場合は決定論的チェック、意味的次元にのみ構造化LLM判定を用いる。成果・貢献:105タスク・13フロンティアモデルを評価した結果、最高モデルでも正答率66.7%にとどまり、HRや複数システム連携ビジネスワークフローが依然としてボトルネックであることが示された。
#agent#benchmark#llm
論文 Hugging Face 2026-04-29 HF ↑11
既存の研究インフラは文書中心的であり、論文間の引用リンクは提供するものの、研究手法がどのように生まれ、適応し、発展してきたかを示す構造的な関係表現が欠如している。特にAI駆動の研究エージェント(research agent)が科学知識の新たな利用者として台頭する中、非構造化テキストから手法の進化トポロジを復元することは困難であり、この限界はますます深刻化していると著者らは主張する。本論文では、AIに関連する会議・ジャーナル・arXivプレプリントから得た103万件超の論文を基に、手法レベルのエンティティを自動識別し、手法間の系譜関係(lineage relationship)やイノベーション間の移行を駆動するボトルネックを捕捉する方法論進化グラフIntern-Atlasを提案する。結果として941万件以上の意味的型付きエッジからなる因果ネットワークが構築された。さらに、時系列的な手法の進行を追う進化チェーン構築のための自己誘導型時間木探索アルゴリズムも提案し、専門家によるグラウンドトゥルースとの強い整合性を確認。アイデア評価や自動アイデア生成への応用も実証している。
#agent#alignment#benchmark
論文 Hugging Face 2026-04-29 HF ↑6
背景・課題として、長期的な生産性タスクはユーザー固有のコンピュータ環境(ディレクトリ構造やコンテンツ豊富な成果物)に強く依存するが、そのような環境での合成データ(synthetic data)作成をスケールする手法が不足していた。本研究では「Synthetic Computers at Scale」と呼ぶスケーラブルな方法論を提案し、現実的なフォルダ階層と文書・表計算・プレゼン等のリッチな成果物を含む合成コンピュータ環境を生成する。各環境上で長期シミュレーションを実施し、一方のエージェント(agent)が約1ヶ月分の作業に相当する生産性目標を設定し、もう一方がそのユーザーとして実際に作業を遂行する。予備実験では1,000台の合成コンピュータを作成し、各実行が平均2,000ターン超・8時間以上のエージェント稼働を要するシミュレーションを実施。得られた学習シグナルにより、ドメイン内外の生産性評価でエージェント性能が有意に向上したと主張する。
#agent#rl#benchmark
論文 深掘り arXiv 2026-04-30
LLM×強化学習のロボット・ゲームAI開発で「報酬設計の自動化」が現実的な選択肢になりそう
強化学習(Reinforcement Learning)における報酬設計をLLMで自動化する研究が進んでいるが、生成された報酬関数が信頼できる学習目標になるとは限らないという課題がある。既存研究は報酬候補の生成・進化・選択に集中し、「いつ」それを適用すべきかをほぼ無視してきた。本研究はこの問題に着目し、生成報酬を「報酬仮説(reward hypothesis)」として扱い、その有効性が現在のポリシーの能力とトレーニングフェーズに依存すると定式化する。提案手法RHyVEは、共有ポリシーチェックポイントから短期分岐検証(fork verification)を用いて少数の報酬仮説を比較する能力認識型・フェーズ認識型プロトコルである。実験では、能力が低い段階では報酬ランキングが信頼できないが、タスク依存の閾値を超えると有益になることを示した。スパース操作タスクではフェーズ認識デプロイメントがピーク性能と保持性能を改善し、報酬生成とデプロイメントは連動した問題として研究すべきと主張している。
#llm#rl
論文 深掘り arXiv 2026-04-30
スキーマ不要のSQL評価が、T2SQL本番運用のモニタリング標準を塗り替える可能性がある
本番環境でのText-to-SQL(T2SQL)評価には、既存ベンチマークが対応できない根本的な課題がある。現行手法はルールベースのSQLマッチングやスキーマ依存の意味解析器が主流だが、いずれもグラウンドトゥルースクエリとDBスキーマへのアクセスを前提とし、実運用ではほぼ満たされない。この乖離により、本番T2SQLエージェントは開発時テストを超えた評価がなされず、品質劣化が静かに進む。本論文はSTEF(Schema-agnostic Text-to-SQL Evaluation Framework)を提案する。STEFはユーザー質問・リフォーミュレーション・生成SQL のみを入力とし、DBスキーマや参照クエリを一切必要としない本番ネイティブな評価システムだ。自然言語とSQLの両表現から意味仕様を抽出し、正規化特徴アラインメントを実施、フィルタ整合・意味的評定・評価信頼度を組み合わせた0〜100スコアを生成する。実験によりスキーマ依存なしで継続的な本番モニタリングとエージェント改善フィードバックループが実現可能であることが示されている。
#agent#alignment#benchmark
論文 arXiv 2026-04-30
物理情報ニューラルネットワーク(Physics-Informed Neural Networks, PINNs)は微分方程式の求解に注目されているが、ニューラルネットワーク固有のスペクトルバイアス(spectral bias)とマルチスケール現象に起因する損失不均衡という2つの根本的な限界を抱えている。本論文は、局所的な高強度ソース項を持つ問題の極端な損失不均衡に対処するため、適応ウェーブレットベースPINN(AW-PINN)を提案する。熱処理・電磁気学・衝撃力学・流体力学など幅広い物理応用に現れるこの種の問題に対し、AW-PINNは残差と教師あり損失に基づいてウェーブレット基底関数を動的に調整する。また自動微分(automatic differentiation)を使わずに導関数を取得するため学習が高速化され、メモリ効率も高い。固定基底による事前学習フェーズの後、スケールと平行移動を適応的に調整する2段階構造を採用する。理論的にはガウス過程極限とNTK構造を導出し、損失比率最大10^10:1の偏微分方程式ベンチマークにおいて既存手法を一貫して上回ることを示している。
#benchmark
論文 深掘り arXiv 2026-04-30
「繰り返し質問の多い社内BIやデータ分析ツール」でText-to-SQLの実用精度が飛躍的に改善しそう
大規模言語モデル(LLM)はText-to-SQL生成に革新をもたらしたが、複雑なスキーマや未知スキーマでの精度不安定・無効SQL生成リスクが実運用の障壁となっている。本研究はTemplate Constrained Decoding(TeCoD)を提案する。TeCoDはラベル付きワークロード内のクエリパターンの反復性を活用し、過去の自然言語-SQLペアを再利用可能なテンプレートに変換する。ファインチューニングされた自然言語推論(NLI)モデルを用いたテンプレート選択モジュールがクエリと既存テンプレートの照合・棄却を効率的に行い、選択後は文法制約付きデコーディング(grammar-constrained decoding)によりSQL生成時にテンプレートを強制適用する。この新しいパーティション分割戦略により構文的有効性と効率性を両立し、マッチしたクエリにおいてIn-Context Learning(ICL)比で最大36%の実行精度向上と2.2倍の低レイテンシを達成したと主張する。
#coding#llm#fine-tuning
企業動向 Microsoft Research 2026-04-30
Microsoft Researchは、複数のAIエージェントが相互接続された環境において生じるセキュリティリスクを分析したブログ記事を公開した。記事の主張によれば、個々のエージェントが安全であっても、それらが連携するエコシステム全体の安全性は保証されないという。複数エージェントが大規模にやり取りする際には、単一エージェントのレッドチーミングでは検出できないネットワーク固有のリスクが出現するとしている。こうしたシステムレベルの脆弱性に対処するには、従来の評価・テスト手法を超えた新しいアプローチが必要であり、エージェント間の相互作用そのものを安全性評価の対象として捉え直す必要があると論じている。マルチエージェントAIの実用化が加速する中、業界全体のセキュリティ設計思想に再考を促す内容となっている。
#agent
企業動向 Google Research 2026-05-01
本ブログ記事では、AI技術を活用した科学研究の加速を目的として、グローバルなパートナーシップの構築とオープンリソースの提供を推進する取り組みが紹介されている。データマイニングおよびモデリングを中心的な手法として位置づけ、研究機関や企業との協力体制を通じて科学的な知見の創出を支援するアプローチが示されている。オープンリソースの提供により、より広範なコミュニティが先端的なAIツールや研究成果にアクセスできる環境を整えることが目指されているとされる。こうした取り組みは、医療・材料科学・気候変動など多岐にわたる分野への応用が期待されており、AI企業が単なる商業的な製品提供にとどまらず、科学コミュニティ全体のエコシステム形成に積極的に関与しようとする姿勢を示すものと位置づけられている。
論文 arXiv 2026-04-30
背景・課題として、長期的な生産性タスクはユーザー固有のコンピュータ環境(ディレクトリ構造や成果物)に強く依存するが、そのような環境でのエージェント訓練用合成データの大規模生成は困難だった。本研究では「Synthetic Computers at Scale」として、現実的なフォルダ階層と文書・スプレッドシート・プレゼン等のコンテンツ豊富なアーティファクトを持つ合成環境の生成手法を提案する。各合成環境を条件として長期シミュレーションを実行し、一方のエージェントが生産目標を設定し、もう一方がユーザーとして約1ヶ月相当の作業をこなす二エージェント構成を採る。予備実験では1,000台の合成コンピュータ上でシミュレーションを実施し、各実行は平均2,000ターン超・8時間以上のエージェント稼働を要した。得られた学習シグナルにより、ドメイン内外の生産性評価でエージェント性能が大幅に改善したと報告されている。ペルソナが十億規模で存在することを踏まえ、本手法はエージェント自己改善や強化学習の基盤として有望と主張する。
#agent#rl#benchmark
論文 arXiv 2026-04-30
脳波(EEG)信号は自動発作検出に不可欠だが、内在するノイズが高品質な表現学習(representation learning)を困難にしている。既存のグラフ構築手法(相関ベース・学習ベース問わず)は、EEIデータのノイズ性質により冗長・無関係なエッジを生成しやすく、グラフ表現の質と下流タスク性能を低下させるという課題がある。本論文では大規模言語モデル(LLM)の推論・文脈理解能力に着目し、LLMをグラフエッジリファイナーとして活用する二段階フレームワークを提案する。まずTransformerベースのエッジ予測器とMLPで初期グラフを構築し確率スコアで候補エッジを評価、次にLLMがノードペアのテキスト的・統計的特徴を基に残存エッジの妥当性を検証・精製する。TUSZデータセットでの広範な実験により、提案フレームワークがタスク性能を向上させつつ、より明瞭で解釈可能なグラフ表現を実現することが示された。
#llm
論文 arXiv 2026-04-30
現代の映像拡散モデル(video diffusion model)は外観合成に優れる一方、物理的整合性(physical consistency)に課題がある。物体の漂流、非現実的な衝突反応、材質特性の不整合などが代表的な問題だ。本論文ではPhyCoを提案する。これは連続的・解釈可能・物理的根拠のある制御を映像生成に導入するフレームワークである。主要コンポーネントは3つ:(i) 摩擦・反発・変形・力を体系的に変化させた10万件超のフォトリアル・シミュレーション動画データセット、(ii) ピクセル整合の物理特性マップを条件とするControlNetを用いた事前学習済み拡散モデルの物理教師あり微調整(physics-supervised fine-tuning)、(iii) 視覚言語モデル(VLM)による報酬最適化。推論時にシミュレータや幾何再構成を必要とせず物理的に整合した映像を生成可能とした。Physics-IQベンチマークで強力なベースラインを大幅に上回り、人間評価でも物理属性の忠実な制御が確認されたと主張している。
#diffusion#fine-tuning#multimodal#benchmark
論文 arXiv 2026-04-30
大規模マルチモーダルモデル(LMM)のポストトレーニングでは、SFT(教師あり微調整)の後にRLVR(検証可能報酬による強化学習)を適用する手順が標準的だが、SFTによる分布ドリフト(distributional drift)がモデルの元の能力を損ない、マルチモーダル推論では知覚エラーと推論失敗が異なるドリフトパターンを示して後続のRLで複合的に悪化するという課題がある。本研究ではPRISMという三段階パイプラインを提案し、SFTとRLVRの間に明示的な分布アライメント段階を挿入することでこの問題を緩和する。オンポリシー蒸留(OPD)の原理に基づき、知覚・推論専門家を持つMoE(Mixture-of-Experts)識別器とポリシーのブラックボックス敵対ゲームとしてアライメントを定式化し、教師ロジット不要で修正シグナルを提供する。さらにGemini 3 Flashから高精度な113Kデモンストレーションを収集し、Qwen3-VLでの実験でGRPO・DAPO・GSPOの複数RLアルゴリズムにわたり4Bで+4.4、8Bで+6.0ポイントの精度向上を達成したと主張している。
#multimodal#alignment#rl#fine-tuning#benchmark