2026-04-24

18件

← アーカイブ一覧

論文 深掘り Hugging Face 2026-04-22 HF ↑12

速く見る・遅く見る:動画における時間の流れの学習

「時間を操るAI」が動画編集・フォレンジクス・世界モデルの三分野を同時に揺さぶる

動画の再生速度変化を人間はどう知覚するか、またAIはどう制御できるか——本研究はこの問いを出発点に、「時間の流れ」を学習可能な視覚概念として体系的に研究する。動画に自然に含まれるマルチモーダル手がかりと時間的構造を活用し、自己教師あり学習(self-supervised learning)によって速度変化の検出と再生速度の推定モデルを構築。これを用いて、ノイズの多い一般動画源から現時点最大規模のスローモーション動画データセットを自動収集した。さらに、指定した再生速度で映像を生成する速度条件付きビデオ生成(speed-conditioned video generation)と、低フレームレートのぼけた動画を高FPS映像に変換するテンポラル超解像(temporal super-resolution)を実現。時間を操作可能な知覚次元として扱うことで、動画フォレンジクス(forensics)検出や、事象の展開を理解するリッチなワールドモデルへの応用可能性も示唆している。

#multimodal#vision
論文 Hugging Face 2026-04-22 HF ↑28

WorldMark: インタラクティブ動画世界モデルのための統合ベンチマークスイート

インタラクティブ動画生成(Interactive Video Generation)モデル(Genie、YUME、HY-World、Matrix-Gameなど)は急速に進化しているが、各モデルが独自のプライベートシーン・軌跡でのみ評価されており、公平なクロスモデル比較が不可能という課題がある。既存の公開ベンチマークは軌跡誤差や美的スコア、VLMベースの評価指標を提供するが、モデル間比較に必要な標準化されたテスト条件(同一シーン・同一行動シーケンス・統一制御インターフェース)を欠いている。本論文ではWorldMarkを提案する。これはImage-to-Video世界モデルの公平な比較基盤を提供する初のベンチマークであり、(1)WASDスタイルの共通行動語彙を各モデル固有の制御形式に変換する統一行動マッピング層、(2)一人称・三人称視点や写実的・様式化シーンを含む500評価ケースの階層的テストスイート、(3)視覚品質・制御整合性・世界一貫性を評価するモジュラーツールキット、の三要素で構成される。さらにオンラインアリーナプラットフォーム(warena.ai)も公開予定とされている。

#benchmark#multimodal#alignment
論文 深掘り Hugging Face 2026-04-22 HF ↑15

StyleID:スタイル非依存の顔認識のための知覚考慮データセット・評価指標

スタイライゼーションAIの「ID保持品質」を人間知覚で測定する新標準が登場しそう

クリエイティブな顔スタイライゼーション(face stylization)は、漫画・スケッチ・絵画など多様なビジュアル表現で人物の顔を描写する技術だが、既存の顔認識エンコーダは自然写真で訓練・校正されているため、スタイル変換後の画像に対して脆弱性を示す。テクスチャや色調の変化を同一性の変化と誤認したり、幾何学的誇張を見逃すという課題がある。本研究はこの課題に対処するため、StyleIDというヒト知覚考慮型データセットと評価フレームワークを提案する。StyleIDは2つのデータセットで構成される:拡散モデル・フローマッチングベースのスタイライゼーションに対する人間の同一性判断を収集したStyleBench-H、および2AFC実験(強制二択実験)による心理測定的認識強度曲線から生成した教師データStyleBench-Sである。StyleBench-Sを活用して既存の意味的エンコーダを微調整し、スタイルや強度をまたいだ人間知覚との類似度順序の整合を実現。既存モデルと比較して人間判断との相関が大幅に向上し、アーティスト手描きの未見ドメイン肖像への汎化性能も改善したと主張する。

#diffusion#fine-tuning#benchmark
論文 深掘り Hugging Face 2026-04-22 HF ↑3

UniGenDet:画像生成と生成画像検出の共進化のための統合生成・識別フレームワーク

生成AIと偽画像検出の「共進化」モデルが、コンテンツ信頼性インフラを再定義するかもしれない

近年、画像生成(image generation)と生成画像検出(generated image detection)はそれぞれ急速に発展しているが、前者は生成ネットワーク、後者は識別フレームワークという異なるアーキテクチャを採用しており、相互の連携は限定的だった。本研究では、この構造的乖離を克服するため、UniGenDetと呼ぶ統合生成・識別フレームワークを提案する。共生マルチモーダル自己注意機構(symbiotic multimodal self-attention mechanism)と統合ファインチューニングアルゴリズムを設計することで、生成タスクが真贋識別の解釈可能性を高め、逆に真贋基準が高忠実度画像の生成を誘導するという相互補完関係を実現する。さらに検出器主導の生成アライメント機構(detector-informed generative alignment mechanism)により、両タスク間のシームレスな情報交換を促進する。複数データセットでの実験で最先端性能を達成したとしており、コードも公開されている。

#vision#multimodal#fine-tuning#alignment
論文 Hugging Face 2026-04-22 HF ↑2

信頼だが検証せよ:言語モデルにおけるクレーム推論のための二重帰属・検証フレームワーク「DAVinCI」の提案

大規模言語モデル(LLM)は多様なNLPタスクで高い流暢性を示す一方、事実誤認やハルシネーション(hallucination)が依然として課題であり、医療・法律・科学コミュニケーション等の高リスク領域では深刻なリスクをもたらす。本論文では、LLM出力の事実信頼性と解釈可能性を向上させる二重帰属・検証フレームワーク「DAVinCI」を提案する。DAVinCIは2段階で動作する:(i)生成されたクレームをモデル内部コンポーネントと外部ソースの両方に帰属させ、(ii)含意ベース推論(entailment-based reasoning)と信頼度キャリブレーション(confidence calibration)により各クレームを検証する。FEVER・CLIMATE-FEVERを含む複数データセットで評価した結果、検証のみのベースラインと比較して分類精度、帰属適合率・再現率・F1スコアを5〜20%改善したと報告されている。アブレーション研究により、証拠スパン選択・再キャリブレーション閾値・検索品質それぞれの寄与も明らかにされており、既存パイプラインへの統合可能なモジュール実装も公開された。

#llm#benchmark
論文 Hugging Face 2026-04-22 HF ↑3

VLAA-GUI: いつ停止・回復・検索すべきかを知る、GUIオートメーションのためのモジュラーフレームワーク

自律型GUIエージェントには「早期停止(early stopping)」と「反復ループ(repetitive loops)」という2つの根本的課題がある。前者は検証可能な根拠なしに成功を宣言してしまう問題、後者は同じ失敗動作を繰り返す問題である。本論文ではVLAA-GUIを提案する。これはStop・Recover・Searchの3コンポーネントで構成されるモジュラーフレームワークである。(1) 完了性検証器(Completeness Verifier)はUI上で視覚的に確認できる成功基準を強制し、証拠のない完了主張を棄却する。(2) ループ破壊器(Loop Breaker)は失敗時のインタラクションモード切替・画面状態の反復検出・戦略変更を多段フィルタリングで実現する。(3) オンデマンドの検索エージェント(Search Agent)はLLMを活用して未知のワークフローをオンライン検索する。さらにコーディングエージェントとグラウンディングエージェントも組み込む。OSWorldで77.5%、WindowsAgentArenaで61.0%を達成し、5バックボーン中3つが人間性能(72.4%)を上回ったと報告している。

#agent#llm#coding#benchmark
論文 Hugging Face 2026-04-22 HF ↑9

TingIS: エンタープライズ規模のノイズの多いカスタマーインシデントからのリアルタイムリスクイベント検出

大規模クラウドネイティブサービスでは、技術的異常のリアルタイム検出と緩和が不可欠だが、監視で見逃されたリスクを補うカスタマーインシデントデータは、極端なノイズ・高スループット・多様なビジネスラインの意味的複雑性から有用な情報抽出が困難である。本論文では、エンタープライズ級インシデント検出を目的としたエンドツーエンドシステム「TingIS」を提案する。中核は多段階イベントリンキングエンジンで、効率的なインデックス技術とLLM(大規模言語モデル)を組み合わせ、少数の多様なユーザー記述からアクション可能なインシデントを安定抽出する。これに加え、ビジネス帰属のカスケードルーティング機構と、ドメイン知識・統計パターン・行動フィルタリングを統合した多次元ノイズ削減パイプラインを備える。本番環境では毎分2,000件超・1日30万件のピークスループットを処理し、P90アラート遅延3.5分・高優先度インシデントの95%検出率を達成。実データ構築ベンチマークでルーティング精度・クラスタリング品質・SNRにおいてベースライン手法を大幅に上回ることを示した。

#llm#benchmark
論文 Hugging Face 2026-04-22 HF ↑3

Omniモデルにおけるコンテキスト展開

背景・課題:テキスト・画像・動画・3Dジオメトリなど多様なモダリティを統合的に扱う統一マルチモーダルモデル(unified multimodal model)の構築は、各モダリティの補完的情報を適切に集約する推論機構の設計が難しいという課題があった。提案手法:本論文ではOmniと呼ばれる統一マルチモーダルモデルを提案し、テキスト・画像・動画・3Dジオメトリ・隠れ表現(hidden representation)を含む多様なモダリティでネイティブ学習を行う。この学習により「コンテキスト展開(Context Unrolling)」と呼ぶ推論プロセスが創発し、モデルは予測生成前に複数のモーダル表現を跨いで明示的に推論を行う。これにより異種モダリティ間の補完的情報が集約され、共有マルチモーダル知識多様体(shared multimodal knowledge manifold)のより忠実な近似が実現されると主張する。成果・貢献:Omniはマルチモーダル生成・理解のベンチマーク双方で高い性能を達成し、テキスト・画像・動画・3Dジオメトリのインコンテキスト生成を含む高度な推論能力を示したとしている。

#multimodal#benchmark
論文 深掘り arXiv 2026-04-23

一時的ターン注入(TTI):大規模言語モデルにおけるステートレス・マルチターン脆弱性の暴露

ステートレス設計のLLMは分散型攻撃に無防備であり、セキュリティ評価の前提が塗り替えられる可能性がある

大規模言語モデル(LLM)が機密性の高いワークフローに組み込まれる中、敵対的堅牢性の重要度が増している。本論文は「一時的ターン注入(Transient Turn Injection: TTI)」という新たなマルチターン攻撃手法を提案する。TTIはステートレスなモデレーション(内容審査)の構造的弱点を突き、悪意ある意図を複数の孤立した対話ターンに分散させることで安全フィルターを回避する。従来のジェイルブレーク手法が持続的な会話コンテキストの維持に依存するのと異なり、TTIはLLMを活用した自動攻撃エージェントがポリシー執行を反復的に試し回避する点が特徴である。OpenAI・Anthropic・Google Gemini・Metaを含む最先端モデルへの大規模評価を通じ、TTI耐性に顕著なばらつきがあること、医療など高リスク領域で未知の脆弱性が存在することを示した。セッションレベルのコンテキスト集約や深層アライメントなど実践的な緩和策も提示している。

#llm#benchmark#agent#alignment
モデル NVIDIA 2026-04-23

OpenAIの新モデルGPT-5.5がNVIDRAインフラ上でCodexを強化——NVIDIAも早速活用開始

OpenAIは、エージェント型コーディングアプリケーション「Codex」の基盤モデルを最新の「GPT-5.5」へ更新したと発表した。GPT-5.5はNVIDIAのGB200 NVL72ラックスケールシステム上で動作しており、ハードウェアとAIモデルの緊密な連携が特徴とされる。Codexは情報処理・複雑な問題解決・アイデア創出といったナレッジワーク領域へのAIエージェント活用を次のフロンティアと位置づけており、開発者ワークフローを超えた知的業務全般への展開を目指すという。また、NVIDIAは1万台以上の規模でこのシステムを自社業務に導入済みとされており、インフラ提供企業がモデルの最大の初期ユーザーになるという象徴的な構図が生まれている。ソフトウェアとハードウェアの垂直統合的な協業が、AI推論能力の大規模展開を加速させると主張している。

#agent#coding
企業動向 Hugging Face 2026-04-24

DeepSeek-V4:エージェントが実際に活用できる100万トークンコンテキスト

DeepSeekは最新モデル「DeepSeek-V4」を発表した。最大の特徴は100万トークンという超大規模なコンテキストウィンドウを、AIエージェントが実用レベルで活用できる形で実装した点にあるとしている。従来の長コンテキストモデルは理論上の最大長と実際の性能に乖離があることが多かったが、DeepSeek-V4はエージェントユースケースにおける実効性を重視した設計を採用していると主張する。これにより、長大なドキュメント処理・複数ステップにわたる自律的なタスク実行・大規模コードベースの理解といった用途での精度向上が期待されるとしており、AIエージェント開発を進める企業や開発者にとって実務上の選択肢が広がる可能性があると訴えている。

#agent
論文 深掘り arXiv 2026-04-23

拡散モデルによる時空間超解像の統合スケール適応フレームワーク

気象AIのスケール汎用化が加速し、観測・モデル間のデータ統合コストが大幅に下がる可能性がある

気候・気象分野における深層学習動画超解像(Super-Resolution: SR)は急速に発展しているが、既存手法は空間または時間のどちらか一方のみを高解像度化するか、特定のSR倍率ペアに固定された設計が多く、異なる解像度や時間間隔への転用が困難だった。本研究では、時空間SRを「条件付き平均の決定論的予測(注意機構付き)」と「残差条件付き拡散モデル(Diffusion Model)」に分解し、さらに降水量保存(Mass-Conservation)変換を組み合わせたスケール適応フレームワークを提案する。スケール適応性は、拡散ノイズスケジュール振幅β・時間コンテキスト長L・質量保存関数fの3つのハイパーパラメータを再チューニングするだけで実現され、同一アーキテクチャのまま空間方向1〜25倍・時間方向1〜6倍のSRに対応可能とする。フランスの再解析降水量データ(Comephore)での実証により、単一アーキテクチャで広範なスケール条件をカバーできることを示した。

#diffusion
論文 深掘り arXiv 2026-04-23

クープマン固有関数の代数構造と無限性について

クープマン理論の計算コスト壁が崩れ、非線形システム予測AIの実用域が広がりそう

動力学系の解析において、クープマン演算子(Koopman operator)の固有関数を効率的に計算する手法が課題となっている。本研究では、可逆な軌道を持つ連続時間力学系において、どこでもゼロにならない固有関数が乗法群を形成するという代数的性質に着目した。「主固有関数(principal eigenfunction)」と呼ばれる少数の固有関数を従来手法で近似した後、その多項式を構成することで大量の固有関数集合を生成できる。これにより固有空間の表現が豊かになり、応用固有の観測量をより正確に表現可能となる。また、複数の定常状態を持つ一次元問題や極限サイクル・分離曲線を持つ二次元問題に現れる固有関数の局所的・広域的特異点を取り扱う手法も提案。特異点を越えた固有関数の接続・継続により、局所的サンプリングデータから整合的なグローバル表現の学習が可能になると主張する。多安定系や疎・断片的計測データへの応用に特に有効としている。

論文 arXiv 2026-04-23

A-IC3: ハードウェアモデル検査のための学習誘導型適応的帰納的汎化

ハードウェアモデル検査(Hardware Model Checking)の最先端アルゴリズムであるIC3は、帰納的汎化(Inductive Generalization)と呼ばれる工程が性能を左右する。この工程では、帰納性への反例(CTI: Counterexample to Inductiveness)を広い状態集合へ汎化するが、既存手法は固定した汎化戦略を用いるため、検証環境の動的・文脈依存的な変化に対応できず、生成される節(clause)の品質が制限されるという課題があった。本論文では、多腕バンディット(MAB: Multi-Armed Bandit)アルゴリズムを用いて、検証プロセスからのリアルタイムフィードバックに基づき汎化戦略を適応的に選択する軽量な機械学習フレームワーク「A-IC3」を提案する。エージェントは汎化結果の品質評価によって更新され、戦略選択を逐次改善する。HWMCC最新コレクションを中心とする914インスタンスのベンチマークで評価した結果、最先端モデル検査器rIC3上でベースラインより26〜50ケース多く解き、PAR-2スコアを194.72〜389.29改善することが示された。

#agent#benchmark
論文 arXiv 2026-04-23

速く・遅く見る:動画における時間の流れの学習

現代のコンピュータビジョン研究では動画が中心的な役割を担ってきたが、時間の経過を知覚・制御する研究はほとんど注目されてこなかった。本論文では「時間」を学習可能な視覚概念として捉え、動画における時間の流れを推論・操作するモデルを提案する。まず動画に自然に含まれるマルチモーダル手がかりと時間的構造を活用し、自己教師あり学習(self-supervised learning)により速度変化の検出や再生速度の推定を実現する。次に、この時間推論モデルを用いて、ノイズの多いin-the-wildソースから現時点で最大規模のスローモーション動画データセットを構築したと主張する。このデータを活用し、指定した再生速度で動きを生成する速度条件付き動画生成(speed-conditioned video generation)と、低フレームレートのぼやけた動画を高FPSの鮮明な動画に変換する時間的超解像(temporal super-resolution)を開発。時間を操作可能な知覚次元として扱う本研究は、時間制御可能な動画生成やフォレンジクス検出、世界モデルへの応用可能性を示すとしている。

#multimodal#vision
論文 arXiv 2026-04-23

Nemobot Games: 大規模言語モデルによるインタラクティブ学習のための戦略的AIゲームエージェントの構築

背景・課題として、ゲームAI開発はルールベース手法から機械学習まで多様なアプローチが存在するが、それらを統一的に扱い、非専門家でも活用できる環境は乏しかった。本論文はClaude Shannonのゲームプレイ機械の分類体系を拡張・実装するため、大規模言語モデル(LLM)を活用した新しいゲームAIプログラミングパラダイムを提案する。中核となるNemobotは、LLMを搭載したゲームエージェントの作成・カスタマイズ・デプロイを可能にするインタラクティブなエージェント工学環境である。辞書型ゲームでは状態行動マッピングを効率的に圧縮し、厳密に解けるゲームでは数学的推論で最適戦略を算出、ヒューリスティックベースゲームではminimax等と群衆知識を融合、学習ベースゲームでは人間フィードバック付き強化学習と自己批評を活用する。本システムはツール拡張生成やファインチューニングにも対応し、AIエージェントの自己プログラミング(self-programming)への一歩と位置づけられる。

#agent#llm#coding#rl#fine-tuning
論文 arXiv 2026-04-23

ユニットコミットメントのためのマルチステージ・ウォームスタート深層学習フレームワーク

電力系統の安定運用において、需給バランスの維持は不可欠であり、その中核となるユニットコミットメント(Unit Commitment, UC)問題は大規模な混合整数線形計画(Mixed-integer Linear Programming, MILP)問題として定式化される。再生可能エネルギーや長期蓄電技術の普及に伴い、UCは複数日にわたる地平線(72時間以上)で高頻度に解く必要が生じており、従来のMILPソルバーでは計算時間の制約を満たすことが困難になっている。本論文では、Transformerベースのアーキテクチャを用いて72時間の発電機コミットメントスケジュールを予測する新しいフレームワークを提案する。高次元空間での生の予測は物理的制約を違反しやすいため、自己注意(self-attention)ネットワークに対して最小起動・停止時間を強制する決定論的後処理ヒューリスティックを統合する。さらに、これらの精緻化された予測をMILPソルバーのウォームスタートとして活用し、信頼度に基づく変数固定戦略により組み合わせ探索空間を大幅に削減する。単一バス系統での検証では、100%の実行可能性を達成し、約20%のテストケースで純粋なMILPソルバーより低コストの解を得た。

#coding
論文 arXiv 2026-04-23

文書からのオープンドメインイベント抽出のためのマルチモーダルテキスト・グラフベースアプローチ

イベント抽出(Event Extraction)は文書要約や緊急シナリオの意思決定を支援する重要タスクである。既存手法には二つの課題がある。第一に、クローズドドメイン手法は事前定義されたイベントタイプに限定され、未知タイプへの汎化が困難である。第二に、オープンドメイン手法は大規模言語モデル(LLM)の活用が不十分であり、文書レベルの文脈・構造・意味推論を明示的にモデル化できていない点も課題とされる。これはLLMの「lost-in-the-middle現象」や注意希薄化(attention dilution)によるものとされる。本論文はこれらを解決するため、MODEE(Multimodal Open-Domain Event Extraction)を提案する。LLMによるテキストベース表現とグラフベース学習を組み合わせ、文書レベル推論をモデル化する新手法である。大規模データセットでの評価により、MODEEは既存のオープンドメイン手法を上回り、クローズドドメインへの汎化においても既存アルゴリズムを超える性能を示したと報告されている。

#llm#multimodal#benchmark