論文 深掘り arXiv 2026-04-23
ステートレスLLM設計の脆弱性が露呈し、AI安全設計の前提が問い直される転換点になりそう
大規模言語モデル(LLM)が機密性の高い業務フローに組み込まれる中、敵対的堅牢性の確保が急務となっている。本論文は「一時的ターン注入(Transient Turn Injection: TTI)」という新たなマルチターン攻撃手法を提案する。TTIは、ステートレスなモデレーション(moderation)の構造的欠点を突き、悪意ある意図を複数の孤立した対話ターンに分散させることで安全フィルタを回避する。従来のジェイルブレイク(jailbreak)手法が会話の継続的コンテキストに依存するのと異なり、TTIはLLMを利用した自動攻撃エージェントにより、ポリシー強制をブラックボックス環境で反復的に検証・回避する。OpenAI・Anthropic・Google Gemini・Metaを含む最先端モデルの横断評価では、対TTI耐性に大きなばらつきがあり、固有の堅牢性を示す構成は限定的だった。特に医療・高リスク領域で未知の脆弱性パターンが発見されており、セッションレベルのコンテキスト集約などの緩和策も論じられている。
#llm#benchmark#agent#alignment
モデル NVIDIA 2026-04-23
OpenAIは、エージェント型コーディングアプリケーション「Codex」の基盤モデルを最新の「GPT-5.5」に更新したと発表した。GPT-5.5はNVIDIAのGB200 NVL72ラックスケールシステム上で動作しており、ハードウェアとAIモデルの密接な連携が強調されている。Codexは情報処理・複雑な問題解決・アイデア創出といったナレッジワークの自動化を担うエージェントとして位置づけられており、開発者ワークフローをさらに高度化することを目指すとしている。NVIDIAは自社内でもCodexを既に活用し始めており、1万台以上の導入実績も示唆されるなど、企業レベルでの大規模展開が進んでいることが伺える。AIエージェントが単なるコード補完を超え、知的業務全般を支援する次世代ツールとして産業全体に影響を与える可能性を訴求している。
#agent#coding
論文 深掘り arXiv 2026-04-23
気象AIの「一モデル・全解像度」時代が来るかもしれない——スケール適応型SRが業界標準レシピになる可能性
気候・気象分野における深層学習ベースの映像超解像(Super-Resolution: SR)は急速に発展しているが、空間と時間の解像度を同時に高める「時空間同時SR」は、特定のアップスケール比に固定されたモデルが多く、異なる解像度や時間間隔への転用が困難だという課題があった。本研究では、条件付き平均の決定論的予測(Attention機構付き)と、残差を処理する条件付き拡散モデル(Diffusion Model)を組み合わせ、さらに降水量総量を保存する質量保存(mass-conservation)変換をオプションで付加したスケール適応型フレームワークを提案する。スケール適応性は、ノイズスケジュール振幅β・時間コンテキスト長L・質量保存関数fの3つのハイパーパラメータを再調整するだけで実現され、同一アーキテクチャを再利用できる。フランスの再解析降水量データ(Comephore)での実証では、空間方向1〜25倍・時間方向1〜6倍のSRを単一アーキテクチャでカバーし、幅広いスケールに対応できるアーキテクチャと調整レシピの有効性を示した。
#diffusion
論文 深掘り arXiv 2026-04-23
Koopman演算子の効率的拡張により、物理・制御・時系列AIの「データ不足問題」に新たな突破口が生まれそう
背景・課題として、連続時間力学系(dynamical system)の解析において、Koopman演算子(Koopman operator)の固有関数(eigenfunction)を数値的に効率よく計算することが求められている。従来手法では固有空間の網羅的な列挙にコストがかかり、特異点(singularity)付近では固有関数が発散・消失するため大域的な表現が困難であった。本研究では、可逆な軌道を持つ系においてKoopman演算子のゼロ点を持たない固有関数が乗法群(multiplicative group)を形成するという代数的性質を活用する。少数の「主固有関数(principal eigenfunction)」を従来手法で近似した後、それらの多項式を構築することで大規模な固有空間を低コストで生成できることを示す。さらに、多安定系(multistable system)や極限閉軌道(limit cycle)・分離曲線(separatrix)を持つ系における固有関数の特異点を解析し、特異点をまたいだ継続(continuation)手法を提案。局所的にサンプリングされたデータから整合的な大域表現を学習できるとしている。
論文 arXiv 2026-04-23
ハードウェアモデル検査(hardware model checking)の最先端アルゴリズムであるIC3は、高い性能とスケーラビリティで広く用いられている。IC3の中核工程である帰納的一般化(inductive generalization)は、帰納性の反例(CTI: counterexample to inductiveness)を広い状態集合へと拡張する処理であり、生成される節(clause)の品質を左右するため、アルゴリズム全体の効率を決定づける重要な役割を担う。しかし既存手法は固定された一般化戦略に依存しており、検証環境の動的・文脈依存的な変化に対応できないという課題があった。本論文では、多腕バンディット(MAB: multi-armed bandit)アルゴリズムを用いて、検証プロセスからのリアルタイムフィードバックに基づき帰納的一般化戦略を適応的に選択する軽量な機械学習フレームワーク「A-IC3」を提案する。最新のHWMCCコレクションを中心とする914インスタンスのベンチマーク評価では、最先端モデル検査器rIC3上でベースライン比26〜50件多くの問題を解決し、PAR-2スコアを194.72〜389.29改善したと報告されている。
#agent#benchmark
論文 arXiv 2026-04-23
動画が高速・低速再生されているかを知覚・制御する技術は、現代のコンピュータビジョン研究で十分に注目されてこなかった。本論文では「時間」を学習可能な視覚概念として捉え、動画中の時間の流れを推論・操作するモデルを提案する。まず動画に自然に存在するマルチモーダル手がかりと時間的構造を活用し、自己教師あり学習(self-supervised learning)によって速度変化の検出と再生速度の推定を実現する。次に、この時間推論モデルを用いて、ノイズの多い実世界動画源から過去最大規模のスローモーション動画データセットを構築する。さらにこのデータを活用し、指定した再生速度で映像を生成する速度条件付き動画生成と、低フレームレート・ぼやけた動画を高FPS・高精細な映像へ変換する時間的超解像(temporal super-resolution)という、時間制御可能なモデルを開発する。本研究は時間を操作可能な知覚次元として位置づけ、時間制御可能な動画生成やフォレンジクス検出への応用可能性を示す。
#multimodal#vision
論文 arXiv 2026-04-23
背景・課題: ゲームAIの設計においては、多様なゲームクラスに対応できる汎用的なフレームワークが求められてきた。本研究は、Claude Shannonが提唱したゲームプレイ機械の分類体系(taxonomy)を大規模言語モデル(LLM)によって拡張・実用化するという新たなパラダイムを提案する。提案手法: 中心となるのはインタラクティブなエージェント工学環境「Nemobot」であり、ユーザーがLLM駆動のゲームエージェントを作成・カスタマイズ・デプロイできる。辞書ベースのゲームでは状態行動マッピングを圧縮し、厳密に解けるゲームでは数学的推論で最適戦略を導出、ヒューリスティックベースのゲームではミニマックス(minimax)アルゴリズムとクラウドソーシングデータを統合、学習ベースのゲームでは人間フィードバックを伴う強化学習と自己批判で戦略を反復精緻化する。成果・貢献: Nemobotはツール拡張生成やファインチューニングも可能な実験環境を提供し、AIエージェントによる自己プログラミング(self-programming)への一歩として位置づけられる。
#agent#llm#coding#rl#fine-tuning
論文 arXiv 2026-04-23
電力系統の需給バランス維持には、ユニットコミットメント(Unit Commitment, UC)と呼ばれる大規模混合整数線形計画(Mixed-integer Linear Programming, MILP)問題を解く必要がある。再生可能エネルギーや長期蓄電技術の普及により、UCは複数日にわたる長時間ホライズンでの最適解を短時間で求めることが求められるようになり、従来のMILPソルバーは計算時間制限の厳格化に対応しきれなくなっている。本論文では、Transformerベースのアーキテクチャを用いて72時間ホライズンの発電機起動・停止スケジュールを予測する新たなフレームワークを提案する。高次元空間での生予測は物理的実行不可能解を生じやすいため、自己注意(Self-Attention)ネットワークに対し最小起動・停止時間の確保や余剰容量最小化を行う決定論的後処理ヒューリスティクスを組み合わせる。さらに、信頼度に基づく変数固定戦略によりMILPの探索空間を大幅削減するウォームスタートとして活用する。単一バステストシステムでの検証では100%の実行可能性を達成し、約20%のテストケースでソルバー単独よりも低コストな運用スケジュールを得たと報告している。
#coding
論文 arXiv 2026-04-23
イベント抽出(Event Extraction)は文書要約や緊急時の意思決定を支援する重要タスクである。既存手法には2つの課題がある。第一に、クローズドドメイン手法は定義済みイベント型に限定され未知型への汎化が困難であること、第二に、未制約イベント型を扱えるオープンドメイン手法は大規模言語モデル(LLM)の潜在能力を十分活用できていないことである。さらに、LLMは「lost-in-the-middle」現象やアテンション希薄化により、文書レベルの文脈・構造・意味的推論を明示的にモデル化することが難しい。これらを解決するため、本研究ではグラフベース学習とLLMのテキスト表現を組み合わせた新手法MODEE(Multimodal Open-Domain Event Extraction)を提案する。大規模データセットでの評価により、MODEEはオープンドメインの最先端手法を上回り、クローズドドメインへの汎化においても既存アルゴリズムを凌駕することが示されたとしている。
#llm#multimodal#benchmark
論文 arXiv 2026-04-23
大規模言語モデル(LLM)エージェントと外部ツールを接続するModel Context Protocol(MCP)は、ステートレスかつeagerなスキーマ注入に依存するため、マルチサーバー構成で1ターンあたり約1〜6万トークンの「MCPコスト(MCP Tax)」が発生する課題がある。この余分なトークンはKVキャッシュを膨張させ、コンテキスト使用率が約70%の「破断点」に近づくと推論性能の低下を招くとされる。本研究はこの問題に対し、トークン間の自己注意(self-attention)をツール間のゲート付き注意へ一般化する中間層機構「Tool Attention」を提案する。具体的には、文埋め込みによるIntent Schema Overlap(ISO)スコア、事前条件とアクセス範囲を制御するゲーティング関数、コンパクトな要約プールからtop-kのツールのみにフルJSONスキーマを昇格させる二段階遅延ローダーを組み合わせる。120ツール・6サーバーを模したシミュレーション評価では、ツールトークンを95%削減(47.3k→2.4k)し、有効コンテキスト利用率を24%から91%へ向上させたと報告している。
#agent#llm#benchmark
企業動向 Hugging Face 2026-04-24
DeepSeekは最新モデル「DeepSeek-V4」を発表した。同モデルの最大の特徴は、100万トークンという大規模なコンテキストウィンドウを、AIエージェントが実用的なレベルで活用できる点にあると主張している。従来の長コンテキストモデルは名目上のトークン数を誇るものの、実際の推論精度や情報の参照精度が長さに比例して低下するという課題があったが、DeepSeek-V4はエージェントユースケースでの実用性を重視した設計を採用しているとされる。この進化により、長大なコードベースの解析、大量のドキュメント横断的な情報抽出、複雑なマルチステップタスクの自律処理といった領域で、開発者・プロダクトチームにとって実務的な価値が高まると同社は示唆している。
#agent