論文 Hugging Face 発表: 2026-04-20 HF ↑3

HP-Edit: 画像編集のための人間選好後学習フレームワーク

HP-Edit: A Human-Preference Post-Training Framework for Image Editing

著者: Fan Li, Chonghuinan Wang, Lina Lei, Yuping Qiu, Jiaqi Xu ほか7名

要約

画像編集タスクでは拡散モデル（diffusion model）が主流となっているが、Diffusion-DPOやFlow-GRPOなどの強化学習（RL）手法による品質向上が進む一方、人間フィードバックからの強化学習（RLHF）を拡散ベース編集に適用する研究は十分に行われていなかった。スケーラブルな人間選好データセットや多様な編集ニーズに対応したフレームワークが不足していたためである。本論文ではこの課題に対し、HP-Editという後学習（post-training）フレームワークと、8種の編集タスクを含む実世界データセットRealPref-50Kを提案する。HP-Editは少量の人間選好スコアリングデータと事前学習済み視覚言語モデル（VLM）を活用し、自動評価器HP-Scorerを構築。これをスケーラブルな選好データセット構築とモデルの報酬関数として活用する。さらにベンチマークRealPref-Benchも導入し、Qwen-Image-Edit-2509などのモデルを大幅に改善できることを実証している。

筆者コメント

本研究の最大の貢献は、RLHFを画像編集領域に実用的に持ち込むためのパイプライン全体を設計した点にあると考えられる。テキスト生成分野ではDPO・PPOなどのRLHF手法が成熟しているが、画像編集ではedit前後のペア評価・多様な編集タイプへの対応・高品質なアノテーション収集コストなど固有の困難があり、その解決策を一貫したフレームワークとして提示している点は実務的に重要と見られる。VLMを用いたHP-Scorerによる自動スコアリングは、人手アノテーションのボトルネックを緩和する工夫として注目に値する。一方で、VLMベースの評価器が人間選好をどの程度忠実に反映できるかは依然として課題であり、日本語UIや日本語テキストを含む画像編集へ適用する際には、使用するVLMの日本語・日本固有ビジュアル対応能力を別途検証する必要があると考えられる。また、RealPref-50Kのライセンスや収集元の著作権条件、再現に必要な計算コストについては論文本文を確認していないため、実務導入前に精査が必要と見られる。Qwen系モデルとの組み合わせで有効性を示している点は、オープンモデルを活用したい現場にとって追跡価値の高い研究と判断される。

※ このコメントは本サイト独自のものです。論文・記事の公式見解ではありません。

#diffusion#rl#llm#multimodal#benchmark

HP-Edit: 画像編集のための人間選好後学習フレームワーク

要約

筆者コメント

同じカテゴリの記事

On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment

World-R1: テキストから動画生成における3D制約の強化学習による整合

OpenWebRL: Demystifying Online Multi-turn Reinforcement Learning for Visual Web Agents