2026-04-22

19件

← アーカイブ一覧

論文 深掘り Hugging Face 2026-04-20 HF ↑19

TEMPO: 大規模推論モデルのテスト時学習をスケールさせる手法

推論時の追加学習が「頭打ちの壁」を突破し、デプロイ後のモデル改善が現実的な選択肢になりそう

大規模推論モデル(Large Reasoning Model, LRM)の推論時にモデルパラメータを適応させるテスト時学習(Test-time Training, TTT)は、オフライン学習の限界を超える能力拡張として注目される。しかし既存のTTT手法は性能向上がすぐに頭打ちになり、計算リソースを追加投入しても効果が薄れるという課題があった。原因として、自己生成報酬信号がモデルの更新に伴いドリフトし、多様性崩壊(diversity collapse)が起きることが指摘されている。本研究では、ラベルなし問題への方策改善(policy refinement)と、ラベル付きデータセット上での定期的な評価器再較正(critic recalibration)を交互に行うTTTフレームワーク「TEMPO」を提案する。この手順をEM(Expectation-Maximization)アルゴリズムとして定式化することで、従来手法が再較正ステップを欠く不完全な変形であることを示す。OLMO3-7BのAIME 2024スコアを33.0%から51.1%、Qwen3-14Bを42.3%から65.8%に改善し、多様性も維持することを確認した。

論文 深掘り Hugging Face 2026-04-20 HF ↑33

AnyRecon: ビデオ拡散モデルによる任意視点3D再構成

「写真を数枚撮るだけで3Dモデル完成」が現実的な選択肢になりそう

スパース視点(sparse-view)からの3D再構成は、少数の画像から現実的な3Dシーンを構築する上で重要な課題だが、既存の拡散モデル(diffusion model)ベース手法は1〜2枚の入力画像に依存するため、幾何学的一貫性の維持や大規模・多様なシーンへの対応が困難であった。本研究では、任意の順序・枚数のスパース入力から拡張性の高い3D再構成を行うフレームワーク「AnyRecon」を提案する。グローバルシーンメモリ(persistent global scene memory)をキャプチャビューキャッシュとして構築し、時間圧縮を排除することで大きな視点変化にも対応。さらに明示的な3D幾何メモリと幾何駆動のビュー検索を組み合わせた幾何認識型コンディショニング戦略を導入し、生成と再構成の相互作用を強化している。効率化のため、4ステップ拡散蒸留(diffusion distillation)とコンテキストウィンドウスパースアテンションを組み合わせ、計算量の削減を実現。不規則な入力・大視点差・長軌跡での頑健な再構成を実験的に示している。

#diffusion#benchmark
論文 Hugging Face 2026-04-20 HF ↑12

ShadowPEFT: パラメータ効率的なファインチューニングのためのシャドウネットワーク

大規模言語モデル(LLM)のパラメータ効率的なファインチューニング(PEFT)は、事前学習済みバックボーンを固定しつつ少数のタスク固有パラメータのみを学習するアプローチだが、LoRAに代表される既存手法は各重み行列に独立した低ランク摂動を挿入する局所的なパラメータ化に留まるという課題がある。本論文はShadowPEFTを提案する。これは深さ方向で共有されるシャドウモジュールによって層レベルの精錬(layer-level refinement)を行う集約型PEFTフレームワークである。各Transformer層で並列シャドウ状態を維持し、それを反復的に発展させることで段階的に豊かな隠れ状態を生成する。シャドウモジュールはバックボーンと分離されているため、深さ方向での再利用・独立した事前学習・分離デプロイが可能でエッジコンピューティングにも適する。生成・理解ベンチマークでLoRAおよびDoRAと同等以上の性能を達成し、集約型の層空間適応が従来の低ランクPEFTの有力な代替となり得ることを示している。

#fine-tuning#llm#benchmark
論文 Hugging Face 2026-04-20 HF ↑30

CoInteract: 空間構造化共生成による物理的整合性を持つ人物-物体インタラクション動画合成

人物と物体のインタラクション(HOI: Human-Object Interaction)動画合成は、ECや仮想マーケティングで実用価値が高い。しかし既存の拡散モデル(diffusion model)は、手や顔などの構造的安定性の欠如、および手と物体の干渉(interpenetration)といった物理的非整合の問題を抱えている。本論文ではCoInteractを提案する。人物参照画像・商品参照画像・テキストプロンプト・音声を条件として受け取るエンドツーエンドのHOI動画合成フレームワークである。Diffusion Transformer(DiT)をバックボーンとし、2つの機構を導入する。第一に、空間的に監督されたルーティングで領域特化型エキスパートにトークンを振り分けるHuman-Aware Mixture-of-Experts(MoE)を提案し、少ないパラメータ追加で構造的忠実度を向上させる。第二に、RGBストリームとHOI構造ストリームを同時学習するデュアルストリーム訓練パラダイム「Spatially-Structured Co-Generation」を提案し、推論時にHOIブランチを除去することでオーバーヘッドゼロを実現する。実験では既存手法を大幅に上回る結果を示した。

#diffusion#speech
論文 深掘り Hugging Face 2026-04-20 HF ↑12

Chat2Workflow:自然言語から実行可能なビジュアルワークフローを生成するベンチマーク

ノーコードワークフロー自動生成の「実力試験」が登場し、LLMの産業適用に新たな評価軸が生まれそう

実行可能なビジュアルワークフロー(visual workflow)は産業展開における主流パラダイムとなっているが、現状では開発者が手動でフロー設計・プロンプト作成・ロジック修正を繰り返す必要があり、コスト・時間・エラーの観点で課題がある。本研究では、自然言語から実行可能なワークフローを直接生成する能力を評価するベンチマーク「Chat2Workflow」を提案する。実世界のビジネスワークフローから構築されており、生成されたワークフローはDifyやCozeなどの実用プラットフォームに直接デプロイ可能な形式に変換できる。加えて、繰り返し発生する実行エラーを緩和するエージェント的フレームワークも提案した。実験結果では、最先端LLMは高レベルな意図は概ね捉えられるものの、複雑・変化する要件下での正確・安定・実行可能なワークフロー生成には依然として苦手意識があることが示された。エージェントフレームワークにより最大5.34%の解決率向上が得られるが、実用的なギャップはまだ大きく、産業グレードの自動化促進の基盤として位置づけられる。

#agent#benchmark#llm
論文 Hugging Face 2026-04-20 HF ↑18

PlayCoder: LLMが生成したGUIコードをプレイ可能にする

LLM(大規模言語モデル)によるコード生成は進化しているが、GUIアプリケーション、特にゲームの生成能力は十分に研究されていない。既存ベンチマークはテストケースによる正誤評価が主であり、インタラクティブ・イベント駆動なGUIアプリには不適切であるという課題がある。本研究ではまず、Python・TypeScript・JavaScriptによる43件の多言語GUIアプリを収録したリポジトリ対応ベンチマーク「PlayEval」を構築し、6カテゴリのGUIアプリケーションをカバーする。また、k個の生成候補のうち少なくとも1つがエンドツーエンドでプレイ可能かを測る指標「Play@k」を提案する。評価を支援するLLMエージェント「PlayTester」はGUI操作を自動実行しロジック違反を検出する。10種類の最先端コードLLMへの実験では、コンパイル成功率は高いもののPlay@3はほぼゼロであり、論理的に正しいGUI生成の弱点が明らかになった。これを解決するマルチエージェントフレームワーク「PlayCoder」は、生成・評価・修復をクローズドループで行い、Exec@3 38.1%・Play@3 20.3%を達成したと報告している。

#llm#benchmark#agent#alignment#coding
論文 Hugging Face 2026-04-20 HF ↑3

HP-Edit: 画像編集のための人間選好後学習フレームワーク

画像編集タスクでは拡散モデル(diffusion model)が主流となっているが、Diffusion-DPOやFlow-GRPOなどの強化学習(RL)手法による品質向上が進む一方、人間フィードバックからの強化学習(RLHF)を拡散ベース編集に適用する研究は十分に行われていなかった。スケーラブルな人間選好データセットや多様な編集ニーズに対応したフレームワークが不足していたためである。本論文ではこの課題に対し、HP-Editという後学習(post-training)フレームワークと、8種の編集タスクを含む実世界データセットRealPref-50Kを提案する。HP-Editは少量の人間選好スコアリングデータと事前学習済み視覚言語モデル(VLM)を活用し、自動評価器HP-Scorerを構築。これをスケーラブルな選好データセット構築とモデルの報酬関数として活用する。さらにベンチマークRealPref-Benchも導入し、Qwen-Image-Edit-2509などのモデルを大幅に改善できることを実証している。

#diffusion#rl#llm#multimodal#benchmark
企業動向 深掘り Microsoft Research 2026-04-22

AutoAdapt: 大規模言語モデルの自動ドメイン適応

LLMのドメイン適応が自動化されれば、専門AI構築の参入障壁が大幅に下がりそう

背景・課題として、法律・医療・クラウド障害対応などの高リスク領域(high-stakes settings)でLLMを実運用する際、ドメイン固有の要件への適応が手動かつ低再現性なプロセスであることが問題視されている。提案手法はMicrosoft Researchが開発した「AutoAdapt」であり、ドメイン適応(domain adaptation)プロセスを自動化することを目的とする。具体的な手法の詳細はアブストラクト抜粋の範囲では限定的だが、モデルの性能と信頼性の維持が困難な高リスク分野での展開を念頭に置き、再現性の高い自動化パイプラインの提供を主な貢献として主張している。LLMの実務導入における最大のボトルネックの一つである「特定ドメインへの適応コスト」を大幅に削減できる可能性を示唆していると見られる。

#llm
論文 Hugging Face 2026-04-20 HF ↑56

Tstars-Tryon 1.0: 多様なファッションアイテムに対応した頑健でリアルなバーチャル試着システム

近年の画像生成・編集技術の進歩により、バーチャル試着(virtual try-on)の可能性が広がっているが、既存手法は複雑な実世界の要求に対応しきれていない。本論文では商用規模のバーチャル試着システム「Tstars-Tryon 1.0」を提案する。同システムは極端なポーズ・照明変化・モーションブラー等の困難な条件下でも高い成功率を維持し、衣服のテクスチャや素材特性を忠実に再現するフォトリアルな生成を実現する。さらに8つのファッションカテゴリにわたり最大6枚の参照画像を用いたマルチ画像合成をサポートし、人物アイデンティティと背景の協調制御も可能とする。商用デプロイの遅延問題を克服するため推論速度も大幅に最適化し、ほぼリアルタイム生成を達成している。エンドツーエンドのモデルアーキテクチャ、スケーラブルなデータエンジン、多段階学習パラダイムを統合したシステム設計により、淘宝(Taobao)アプリで数百万ユーザー・数千万リクエストの産業規模デプロイを実現したと報告している。

#vision#benchmark
ツール OpenAI 2026-04-22

臨床医向けChatGPTの強化:医療従事者への無料提供を発表

OpenAIは、認証済みの米国医師・ナースプラクティショナー・薬剤師を対象に、「ChatGPT for Clinicians」を無料で提供すると発表した。同サービスは臨床ケアの支援、医療文書作成、研究活動のサポートを主な用途として設計されているとされる。医療専門家であることの認証プロセスを経ることで利用可能となる点が特徴であり、一般向けのChatGPTとは異なる医療特化型の機能・体験が提供されると見られる。医療現場におけるAI活用の普及を加速させる取り組みとして、臨床業務の効率化や研究分野でのAI利用拡大に貢献する可能性があるとOpenAIは主張している。米国の医療従事者を直接ターゲットにした本施策は、医療AIの信頼性確保と普及拡大を同時に狙う戦略的な動きと位置づけられる。

モデル OpenAI 2026-04-22

OpenAI Privacy Filterの紹介

OpenAIは、テキスト中の個人識別情報(PII)を検出・マスキングするためのオープンウェイトモデル「OpenAI Privacy Filter」を発表した。同モデルは最先端の精度でPIIを識別・除去する機能を持つとされており、オープンウェイト形式で提供される点が特徴的である。これにより、企業や開発者は自社環境にモデルをデプロイし、氏名・住所・電話番号などの機密情報を含むテキストを処理する前段階でのプライバシー保護処理を組み込みやすくなると主張している。医療・金融・法務など個人情報を多く扱う業界においては、LLMパイプラインへの統合によりコンプライアンス対応の効率化が期待されるとしており、AIシステムにおけるプライバシーバイデザインの実現を後押しする取り組みとして位置づけられている。

論文 Hugging Face 2026-04-20 HF ↑3

LoopCTR: クリック率予測のためのループスケーリングの解放

Transformerベースのクリック率予測(CTR)モデルをスケールアップする際、パラメータ増加に伴う計算・ストレージコストが産業展開上の制約と乖離するという課題がある。本論文はLoopCTRを提案する。これは共有モデル層の再帰的再利用により学習時の計算量を増やしつつ、パラメータ数の増加から計算量を分離する「ループスケーリング」パラダイムを導入するものである。アーキテクチャはHyper-Connected ResidualとMixture-of-Experts(MoE)を組み合わせたサンドイッチ構造を採用し、各ループ深さでのプロセス監督(process supervision)により多段ループの恩恵を共有パラメータに蒸留する。これにより「多ループで学習・ゼロループで推論」戦略が実現し、ループ無しの単一フォワードパスのみで全ベースラインを上回る性能を達成した。3つの公開ベンチマークと1つの産業データセットで最先端性能を示し、オラクル分析ではさらに0.02〜0.04 AUCの潜在的改善余地も確認されている。

#benchmark
企業動向 OpenAI 2026-04-22

ワークスペースエージェント

OpenAIは、ChatGPT上でワークスペースエージェントを構築・活用・スケールする方法を解説するガイドを公開した。この機能は、繰り返し発生する業務ワークフローを自動化し、各種ツールと連携しながらチーム全体のオペレーションを効率化することを目的としている。エージェントはChatGPT環境内で動作し、定型作業の自動処理やツール統合を通じてチームの生産性向上を支援するとしている。個人利用にとどまらず、組織レベルでのスケールアップを前提とした設計思想が強調されており、企業がAIを業務プロセスに深く組み込むための基盤として位置づけられているとみられる。繰り返し作業の削減やツール間の連携強化により、エンジニアやプロダクトチームの工数削減と意思決定の迅速化に貢献することが期待されると、OpenAIは主張している。

#agent
ツール OpenAI 2026-04-22

Responses APIにおけるWebSocketsによるエージェントワークフローの高速化

OpenAIは、Responses APIにWebSocketsを組み合わせることで、エージェント型ワークフローのパフォーマンスを大幅に改善したと発表した。本記事ではCodexエージェントのループ処理を詳細に解説し、WebSocketsと接続スコープのキャッシュを活用することでAPIオーバーヘッドを削減し、モデルの応答レイテンシを向上させた仕組みを明らかにしている。従来のHTTPリクエスト/レスポンスの繰り返しに伴うコネクション確立コストをWebSocketsの持続的接続により抑制し、さらに接続単位でのキャッシュ機構を導入することで、ツール呼び出しや複数ステップにわたるエージェントループの処理効率を高めたとされる。この改善はCodexのような複雑なコーディングエージェントに限らず、マルチステップ推論や反復的なAPI呼び出しを必要とするあらゆるエージェント型システムに恩恵をもたらす可能性があり、エンタープライズ向けの実用的なエージェント開発において重要な前進と位置づけられている。

#agent
モデル OpenAI 2026-04-22

ChatGPTにワークスペースエージェント機能を導入

OpenAIは、ChatGPTにおいて「workspace agents」と呼ばれる新機能を発表した。これはCodexを基盤としたエージェント機能であり、複雑なワークフローの自動化をクラウド上で実行できる点が特徴とされる。チームがさまざまなツールをまたいで業務をセキュアにスケールさせることを支援することを目的としており、単なる対話型AIの枠を超えた、実務的な自律型エージェントとしての活用を想定した設計となっているとブログは主張している。Codexの持つコード生成・実行能力をバックエンドに置くことで、ソフトウェア開発や運用タスクの自動化において高い実用性を持つと見られ、エンタープライズ向けに複数ツールとの連携を前提とした設計が採られているとされる。

#agent
企業動向 DeepMind 2026-04-21

業界リーダーとの連携でAIトランスフォーメーションを加速

Google DeepMindは、フロンティアAIの能力を世界中の組織に届けることを目的として、グローバルなコンサルティングファームとの戦略的パートナーシップを締結したと発表した。このパートナーシップにより、Google DeepMindが開発する最先端AIモデルや技術を、コンサルティング企業が持つ業界知識・顧客ネットワーク・導入支援力と組み合わせることで、企業のAIトランスフォーメーションを加速させる狙いがあるとされる。単にモデルをAPI提供するにとどまらず、実際のビジネス変革にまで踏み込んだ形での展開を志向しており、エンタープライズ市場における本格的な普及フェーズへの移行を示唆していると考えられる。AI技術の社会実装において、技術力とコンサルティング能力の融合が重要な鍵になるという業界全体のトレンドとも合致する動きといえる。

企業動向 OpenAI 2026-04-21

Codexを世界中の企業へスケール展開

OpenAIは、エンタープライズ向けコーディングエージェント「Codex」の大規模展開を支援する新たな取り組みとして「Codex Labs」を立ち上げたと発表した。Accenture・PwC・Infosysをはじめとする大手コンサルティング・ITサービス企業と提携し、ソフトウェア開発ライフサイクル全体にわたってCodexを企業内に導入・スケールさせる体制を整えたとしている。また、週間アクティブユーザー数(WAU)が400万人に達したことも明らかにされており、エンタープライズ市場での急速な普及が示唆されている。Codex Labsは、パートナー企業のノウハウを活用することで、個々の企業の開発プロセスに合わせたカスタマイズや導入支援を提供する仕組みと見られ、大企業における生成AIを活用したソフトウェア開発の加速に寄与することが期待されているとブログは主張している。

企業動向 Google Research 2026-04-22

アングルがすべて:あなたの写真を再構図する

本ブログ記事では、生成AIを活用した写真の「再構図(re-composition)」機能が紹介されている。撮影済みの写真に対して、構図を後から変更・最適化できるという機能であり、単純なトリミングや拡張にとどまらず、生成AIが画像の内容を理解した上でより効果的なアングルや構図へと再現・補完できる点が特徴とされている。これにより、撮影時に理想的な構図を捉えられなかったユーザーでも、プロフェッショナルな仕上がりを得られる可能性が示唆されている。写真編集の民主化という観点から、スマートフォンユーザーからプロのフォトグラファーまで幅広い層への影響が期待されており、創作ワークフローの効率化や表現の幅の拡大につながると主張されている。

企業動向 Google Research 2026-04-21

ReasoningBank:エージェントが経験から学習できる仕組み

Cohere(または関連AI企業)が「ReasoningBank」と呼ばれる新機能・フレームワークを発表した。本ブログによると、ReasoningBankはAIエージェントが過去の推論プロセスや経験を蓄積・参照することで、同種のタスクに対して効率的かつ高精度な対応ができるようになる仕組みとされる。従来の生成AIは各セッションが独立しており、過去の試行錯誤を活かせないという課題があったが、本フレームワークはその橋渡しを担うと主張される。推論ログをバンク(貯蔵庫)として管理し、エージェントが類似問題に直面した際に過去の成功・失敗パターンを参照することで、継続的な性能改善を実現するとしている。これにより、繰り返し業務を担うエンタープライズ向けエージェントの実用性が大幅に向上する可能性があるとブログは示唆している。

#agent