論文 arXiv 発表: 2026-04-29

信頼性の高い臨床トリアージのためのドメイン適応済み小型言語モデル

Domain-Adapted Small Language Models for Reliable Clinical Triage

著者: Manar Aljohani, Brandon Ho, Kenneth McKinley, Dennis Ren, Xuan Wang

要約

救急部門における緊急度指数（Emergency Severity Index: ESI）の正確な割り当ては、自由記述形式のトリアージ文書の多様性により、誤トリアージやワークフロー非効率を招く課題が続いている。本研究では、オープンソースの小型言語モデル（Small Language Model: SLM）がプライバシーを保護しつつ信頼性の高いトリアージ意思決定支援ツールとして機能するかを検証した。複数のSLMを多様なプロンプトパイプラインで比較した結果、トリアージ記録を簡潔にまとめた「臨床ビネット」が最も高い予測精度をもたらすことが判明した。特にQwen2.5-7Bが精度・安定性・計算効率の最良バランスを示した。専門家監修データおよびシルバー標準の小児トリアージデータを用いた大規模ドメイン適応により、ファインチューニング済みQwen2.5-7BはすべてのベースラインSLMおよびGPT-4oを含む大型商用モデルを上回り、臨床的に重大な誤分類を大幅に削減したと報告している。

筆者コメント

本研究が注目される点は、GPT-4oのような大規模商用LLMをファインチューニング済み7BクラスのSLMが上回ったという主張にある。これはMedPaLMやClinical-T5など医療特化LLMの流れとは異なり、「大きさより特化度」を実証する位置づけと見られる。Qwen2.5-7Bは比較的新しいアーキテクチャであり、多言語対応も備えるため、日本語の電子カルテや救急記録への転用可能性は一定あると考えられる。ただし、日本の救急現場ではESIではなくJTAS（Japan Triage and Acuity Scale）が用いられており、そのまま適用するにはラベル体系の読み替えとドメイン固有データの再整備が必要になると思われる。また「シルバー標準データ」の品質や規模、アノテーション手順の詳細がアブストラクトからは不明であり、再現性の確認には論文本文の精査が不可欠だろう。プライバシー保護を売りにしたオンプレミス展開を想定している点は、個人情報保護規制が厳しい医療機関にとって現実的な選択肢として評価できる。実務導入時はモデルの誤出力に対するヒューマン・イン・ザ・ループの設計が依然として重要と考えられる。

※ このコメントは本サイト独自のものです。論文・記事の公式見解ではありません。

#fine-tuning#llm#benchmark

信頼性の高い臨床トリアージのためのドメイン適応済み小型言語モデル

要約

筆者コメント

同じカテゴリの記事

On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment

World-R1: テキストから動画生成における3D制約の強化学習による整合

OpenWebRL: Demystifying Online Multi-turn Reinforcement Learning for Visual Web Agents