← アーカイブ一覧
論文 深掘り Hugging Face 2026-04-26 HF ↑71
「RLで3D整合動画生成」が自動運転・ロボ向け合成データ生成コストを大幅に下げるかもしれない
テキストから動画を生成する基盤モデル(video foundation model)は優れた映像合成能力を持つ一方、幾何学的不整合(geometric inconsistency)という課題を抱えている。既存手法はアーキテクチャ改修により3D事前知識(3D prior)を注入しようとするが、計算コストが高くスケーラビリティに限界がある。本研究ではWorld-R1を提案し、強化学習(reinforcement learning)を通じて動画生成と3D制約を整合させるフレームワークを構築した。世界シミュレーション向けの専用純テキストデータセットを新たに整備し、Flow-GRPOを用いて事前学習済み3D基盤モデルおよびビジョン言語モデル(VLM)からのフィードバックでアーキテクチャを変更せずに構造的整合性を強制する。さらに周期的分離学習戦略(periodic decoupled training strategy)で剛体的幾何整合性と動的シーンの流動性のバランスを取った。評価の結果、元モデルの視覚品質を維持しつつ3D一貫性を大幅に向上させ、動画生成とスケーラブルな世界シミュレーションの橋渡しに貢献するとしている。
#rl#alignment#benchmark
論文 Hugging Face 2026-04-26 HF ↑14
背景・課題:プロセス報酬モデル(PRM)は数学などの静的ドメインでLLMの推論能力を向上させてきたが、動的なデータ分析タスクへの適用は未開拓であった。既存の汎用PRMはデータ分析エージェントの監督において、インタープリタ例外を発生させないまま誤結果をもたらすサイレントエラーを検出できず、探索的な試行錯誤を誤ってペナルティとして扱う問題が示された。提案手法:著者らはDataPRMと呼ぶ環境認識型の生成PRMを提案する。DataPRMは環境と自律的にインタラクションして中間実行状態を検査しサイレントエラーを検出するアクティブ検証器として機能し、修正可能なエラーと回復不能なミスを区別する反省認識型の三値報酬戦略を採用する。8K超の高品質な訓練インスタンスをダイバーシティ駆動の軌跡生成と知識拡張型アノテーションにより構築した。成果・貢献:ScienceAgentBenchで7.21%、DABStepで11.28%の性能向上を達成し、4Bパラメータでも強力なベースラインを上回り、強化学習(RL)との統合でDABenchおよびTableBenchでも顕著な改善が得られたとしている。
#agent#llm#rl
論文 深掘り Hugging Face 2026-04-26 HF ↑49
「空間推論ができる」VLMのスコアは評価設計の欠陥で水増しされている可能性があり、選定基準の見直しを迫るかもしれない
現行のVLM(視覚言語モデル)空間知能評価には2つの構造的欠陥がある。①点群(point cloud)ベースの3Dアノテーションを動画評価の正解として流用することで、物体の見落とし・誤ラベル・サイズ情報の破損が生じ、QAペアが不正確になる。②全シーン情報を前提とした設問設計なのに、多くのVLMは16〜64フレームのスパースサンプリングで動作するため、モデルが実際に受け取る入力では回答不可能な問題が多数存在する。本研究はReVSIベンチマークを提案し、5データセット計381シーンを専門的3Dアノテーションツールで再アノテーションし、厳格なバイアス除去と人手検証を経てQAペアを再生成。16/32/64/全フレームの複数バジェット設定と細粒度の物体可視性メタデータも整備した。汎用・ドメイン特化VLM両方の評価から、従来ベンチマークでは隠蔽されていた系統的失敗パターンが明確に浮かび上がることを示した。
#multimodal#benchmark
論文 深掘り Hugging Face 2026-04-26 HF ↑27
ビジョンエンコーダ不要の統合マルチモーダルモデルが、AIシステム設計の常識を塗り替えるかもしれない
統合型マルチモーダルモデルは通常、事前学習済みビジョンエンコーダ(vision encoder)に依存し、理解タスクと生成タスクで異なる視覚表現を使用するため、両タスク間のミスアライメントが生じ、生ピクセルからのエンドツーエンド最適化が困難とされてきた。本研究では、ピクセル埋め込み(pixel embedding)に基づいて視覚理解と生成を直接実行するネイティブ統合マルチモーダルモデル「Tuna-2」を提案する。Tuna-2はVAEや表現エンコーダといったモジュール型ビジョンエンコーダ設計を完全に廃止し、シンプルなパッチ埋め込み層のみで視覚入力をエンコードすることでアーキテクチャを大幅に簡略化する。実験では、Tuna-2がマルチモーダルベンチマークで最先端性能を達成し、ピクセル空間統合モデリングが潜在空間(latent-space)アプローチと同等以上の高品質画像生成を実現できることを示す。特にスケール時の細粒度視覚知覚タスクで優れた性能を発揮し、事前学習済みビジョンエンコーダがマルチモーダルモデリングに必須ではないことを示唆している。
#multimodal#alignment#vision#benchmark
企業動向 深掘り OpenAI 2026-04-28
AWSとOpenAIの連携でマルチクラウドAI戦略が企業標準になりそう
AWSがOpenAIのGPTモデル群、コード生成特化モデルのCodex、およびマネージドエージェント機能を自社クラウド環境上で利用可能にしたと発表した。この統合により、企業はAWS環境内でセキュアなAIシステムを構築できるようになる。従来、OpenAIのモデルを利用するにはOpenAI APIやMicrosoft Azure OpenAI Serviceを経由する必要があったが、本発表によりAWSネイティブな形でOpenAIの主要モデルにアクセスできる選択肢が加わった。特にマネージドエージェント機能の提供は、企業がAWSのセキュリティ・コンプライアンス基盤(IAMやVPCなど)を活用しながらAIエージェントを運用できる点を強調しており、エンタープライズ利用における信頼性と運用管理の簡便化を主な訴求点としている。
#agent
論文 Hugging Face 2026-04-26 HF ↑4
大規模言語モデル(LLM)は推論時に長い思考トレースを生成することで高い推論性能を実現するが、計算コストが課題となる。効率的推論に関する先行研究では長さベースの報酬や枝刈りが用いられるが、ベースモデルの学習時より短いコンテキストウィンドウでのポストトレーニングという要因の影響が系統的に検証されていなかった。本研究ではまず、長さを考慮しない標準的なGRPOでも短コンテキストでのポストトレーニング単独で推論の圧縮が起きるが、学習不安定性と精度低下を招くことを示す。これを解決するため、Step-level Advantage Selection(SAS)を提案する。SASは推論ステップ単位で動作し、正解ロールアウト内の低信頼度ステップおよび検証失敗ロールアウト内の高信頼度ステップにゼロアドバンテージを割り当てる。数学・一般推論ベンチマークにて、最強の長さ考慮ベースラインと比較してPass@1精度を平均0.86ポイント改善しつつ推論長を平均16.3%削減し、精度と効率のトレードオフを改善した。
#llm#benchmark
ツール OpenAI 2026-04-27
食品流通スタートアップのChocoが、OpenAI APIを活用したAIエージェントの導入によって、食品サプライチェーンの業務効率化と事業成長を実現したと発表した。同社はレストランと食品卸業者をつなぐプラットフォームを提供しており、従来は人手に頼っていた受発注・コミュニケーション業務をAIで自動化することで生産性を大幅に向上させたとしている。OpenAI APIを中核に据えたエージェント型のアーキテクチャを採用することで、単なる作業補助にとどまらず、意思決定や処理の自律的な実行を可能にした点が特徴だという。食品流通という比較的デジタル化が遅れていた業界においても、AIエージェントが実務レベルで機能することを示した事例として、同様の課題を抱える業界への波及効果が期待されると主張している。
#agent
論文 Hugging Face 2026-04-26
背景・課題として、CAD(Computer-Aided Design)モデルは構築履歴(パラメトリックな設計意図)を持つが、既存の大規模3Dデータセットはほぼ境界表現(B-Rep)やメッシュで構成されており、この手続き的情報が失われている。本研究ではZero-to-CADを提案し、実行可能なCAD構築シーケンスをスケーラブルに合成するフレームワークを構築する。提案手法では合成をエージェント的探索問題として定式化し、大規模言語モデル(LLM)をフィードバック駆動のCAD環境に組み込み、ツールやドキュメント参照を活用しながらコードの生成・実行・検証を反復する。これにより、スケッチ&押し出し操作を超えた多様な操作語彙を含む約100万件の実行可能・可読・編集可能なCADシーケンスを合成した。高品質な10万件のサブセットも公開される。有用性の実証として、合成データでビジョン言語モデルをファインチューニングし、マルチビュー画像から編集可能なCADプログラムを再構築するタスクでGPT-5.2を含む強力なベースラインを上回る成果を示した。
#agent#llm#fine-tuning
論文 Hugging Face 2026-04-26 HF ↑1
背景・課題:強化学習における検証可能な報酬(RLVR)は視覚言語モデル(VLM)の推論能力を向上させてきたが、結果レベルの監督信号は粗すぎて推論チェーン内のエラーを正確に診断・修正できないという問題がある。提案手法:本論文はPerceval という知覚中心のプロセス報酬モデル(PRM)を提案する。Percevalは応答から画像関連の主張を抽出し、視覚的証拠と照合することでトークンレベルのエラー同定を実現する。RLトレーニングでは従来のGRPOのシーケンスレベル優位性に代わり、Percevalが特定したハルシネーション箇所にペナルティを集中させるトークンレベルの細粒度監督を適用する。さらに推論時にも誤り箇所を切り捨てて再生成または自己反省を繰り返すテスト時スケーリングを実現する。成果:複数ドメインのベンチマークで顕著な改善を達成し、多数決投票等の既存戦略を上回る一貫したパフォーマンス向上を示した。コードとデータは公開予定とされている。
#multimodal#rl#benchmark
論文 Hugging Face 2026-04-26 HF ↑3
ショット境界検出(Shot Boundary Detection, SBD)は動画を意味的に一貫したショットに自動分割する技術である。既存の最先端手法はトランジション部分での非解釈的な境界出力、微細な不連続の見逃し、ノイズの多い低多様性アノテーション、および時代遅れのベンチマークへの依存という課題を抱えていた。本論文ではこれらの限界を克服するため、OmniShotCutを提案する。本手法はSBDを構造化関係予測(structured relational prediction)として定式化し、ショットクエリベースの密な動画Transformer(dense video Transformer)によってショット範囲をショット内関係(intra-shot relations)とショット間関係(inter-shot relations)と同時に推定する。不正確な手動ラベリングを回避するため、主要なトランジション族を精密な境界とパラメータ化バリアントで自動再現する完全合成トランジション生成パイプラインを採用している。さらに包括的・診断的評価を可能にする広ドメインの現代的ベンチマークOmniShotCutBenchを導入し、評価基盤の刷新にも貢献している。
#benchmark
企業動向 NVIDIA 2026-04-28
NVIDIAは、視覚・音声・言語処理を単一システムに統合したオープンなマルチモーダルモデル「Nemotron 3 Nano Omni」を発表した。従来のAIエージェントシステムでは、これら3つの機能をそれぞれ別モデルで処理するため、データの受け渡しに時間がかかり、文脈情報の損失が生じるという課題があったとされる。Nemotron 3 Nano Omniはこれらを一つのモデルに統合することで、エージェントがより高速かつ高精度な応答を実現できると主張している。モデル名に「Nano」を冠することからも、エッジデバイスやオンプレミス環境での軽量動作を想定しているとみられ、最大9倍の効率化という数値はこうした統合アーキテクチャに起因するとされる。オープンモデルとして提供される点は、企業による独自カスタマイズや商用利用のハードルを下げるものとして業界に一定のインパクトを与えると考えられる。
#agent#multimodal#speech
ツール OpenAI 2026-04-27
OpenAIは、ChatGPT EnterpriseおよびOpenAI APIがFedRAMP Moderate認証を取得したと発表した。FedRAMPは米国連邦政府機関がクラウドサービスを採用する際に求めるセキュリティ評価フレームワークであり、このModerateレベルの認証取得により、連邦政府機関がOpenAIのサービスをセキュアな形で公式に導入できる環境が整ったとされる。同社はこれにより、政府機関における安全なAI活用の加速が見込まれると主張している。民間企業向けにとどまっていたOpenAIのサービスが、厳格なコンプライアンス要件を持つ公共セクターへも本格的に展開できる段階に入ったことを示す発表と位置づけられる。
企業動向 DeepMind 2026-04-27
Google DeepMindは大韓民国政府とのパートナーシップ締結を発表した。このパートナーシップは、フロンティアAIモデルを活用して科学的ブレークスルーを加速させることを主な目的としている。Google DeepMindが持つ最先端AI研究の知見と韓国政府・研究機関のリソースを組み合わせることで、科学技術分野における重要な課題解決を目指すとしている。具体的には、医療・創薬・素材科学などの分野でAIモデルを応用した研究加速が想定されると見られる。この動きは、民間AI企業が国家レベルの機関と連携して研究インフラや政策形成に関与するという、業界全体で加速しつつあるトレンドの一環として位置づけられる。国家単位でのAI活用を通じて、科学・産業競争力の強化に寄与することを目指すと主張している。
企業動向 OpenAI 2026-04-27
OpenAIとMicrosoftは、両社間の契約を改定したと発表した。今回の改定は、パートナーシップの構造を簡素化し、長期的な見通しを明確にするとともに、大規模なAIイノベーションの継続的な推進を支援することを目的としているとされる。従来の複雑な契約関係を整理することで、両社の役割分担や収益配分・技術提供の条件がより明確になると主張されている。これにより、OpenAIが進める商業展開の加速と、MicrosoftのAzureを基盤としたエンタープライズ向けAIサービスの拡充が一体的に進められる見通しだという。業界全体に対しては、クラウドインフラと先端AIモデルを組み合わせた大規模展開モデルの標準的な形態として、他社の戦略立案にも影響を与える可能性があると示唆されている。
モデル Hugging Face 2026-04-28
NVIDIAは、文書・音声・動画を横断的に処理するマルチモーダルAIモデル「Nemotron 3 Nano Omni」を発表した。同モデルは「Nano」という名称が示すように比較的小規模なパラメータ構成でありながら、長いコンテキストウィンドウを持ち、複数のモダリティ(テキスト・音声・映像)を統合的に扱えることが特徴とされる。エッジデバイスやオンプレミス環境でも動作可能な効率性を備えており、RAGパイプラインや自律型エージェントへの組み込みを主な用途として想定していると同ブログは主張する。企業がドキュメント解析・会議音声の自動処理・動画コンテンツの理解といった業務自動化ニーズに対応する際、クラウド依存を低減しながら高度なマルチモーダル推論を実現できる選択肢が広がると見られ、エンタープライズAI市場における実装コストの削減に寄与する可能性があるとされる。
#multimodal#agent
企業動向 Hugging Face 2026-04-27
本記事はOpenAIが提供する「Privacy Filter」を活用し、スケーラブルなWebアプリケーションを構築するための手法について解説したブログ記事と見られる。Privacy Filterは、AIを活用したアプリケーションにおいて個人情報や機密データをフィルタリング・保護する機能を提供するものとされており、開発者がプライバシーに配慮したシステムを効率的に構築できるよう支援する仕組みと考えられる。大規模なユーザーベースを持つWebアプリにおいてもデータ保護規制(GDPRやCCPAなど)への準拠を容易にすることが期待されており、エンタープライズ向けAIソリューションの普及を後押しする可能性があると主張していると見られる。
企業動向 NVIDIA 2026-04-28
NVIDIAは製造業における設計・開発プロセスの根本的な転換を主張している。従来の「設計→製造→実機テスト」というサイクルは、現実世界でのテストが唯一信頼できる検証手段という前提に基づいていた。しかし同社は、NVIDIA Omniverseを中核とするシミュレーション・ファーストのアプローチにより、この前提が過去のものになりつつあると述べている。物理ベースのデジタルツイン環境でバーチャルに製品や工場ラインを検証できるようになることで、開発コストの削減、リードタイムの短縮、設計品質の向上が期待できるとしている。製造業がAIとリアルタイムシミュレーションを組み合わせた新たなワークフローへ移行する「新時代」が到来したと位置づけており、自動車・航空宇宙・エレクトロニクスなど幅広い産業への波及効果を示唆している。
論文 arXiv 2026-04-27
Transformerアーキテクチャでは、Rotary Positional Embedding(RoPE)の回転多様体(rotation manifold)は離散的な順序インデックスのみで構成される固定構造として扱われてきた。本論文はこの回転空間がアテンション機構における見落とされた第二の表現次元であると主張する。複素数の実軸と虚軸のアナロジーで説明すれば、トークン埋め込みが意味的(実)成分(トークンが何を意味するか)を担う一方、回転が動的(虚)成分(他のトークンとの関係性)を担うという枠組みを提唱する。具体的な実装としてSIREN-RoPEを提案し、連続タイムスタンプ・周期的時間パターン・カテゴリメタデータをSINEN(Sinusoidal Representation Network)のデュアルブランチ構造で回転次元に注入する。大手ソーシャルネットワークの本番規模ニュースフィードデータセットを用いた生成型推薦モデルでの評価では、計算コストのオーバーヘッドをほぼ増やさず、キャリブレーションおよびランキング指標の一貫した改善が示されたとしている。
#coding#benchmark