論文 Hugging Face 発表: 2026-04-15 HF ↑1

モデル能力が支配的：AIMO 3からの推論時最適化の教訓

Model Capability Dominates: Inference-Time Optimization Lessons from AIMO 3

著者: Natapong Nitarach

要約

複数のLLM試行の多数決は数学的推論を改善するが、相関エラーが有効サンプルサイズを制限する。異なる推論戦略を異なる投票者に割り当てるDiverse Prompt Mixerを提案し、AIMO 3競技（3モデル、50のIMOレベル問題、限定的リソース）で検証した。結果として、プロンプトレベルの介入はすべて失敗し、高温度サンプリング（high-temperature sampling）はすでにエラーを十分に装飾化している。能力の低い戦略は相関減少より精度低下が大きい。8点の能力差がある場合、あらゆる最適化においてモデル能力が支配的である。最良の多数決スコア（42/50）とpass@20の間隙は選択損失（selection loss）であり、プロンプト損失ではない。検証器ベースのセレクタが対応可能だが、プロンプトエンジニアリングでは解決不可能である。

#llm

モデル能力が支配的：AIMO 3からの推論時最適化の教訓

要約

同じカテゴリの記事

On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment

World-R1: テキストから動画生成における3D制約の強化学習による整合

OpenWebRL: Demystifying Online Multi-turn Reinforcement Learning for Visual Web Agents