信頼性の高い臨床トリアージのためのドメイン適応済み小型言語モデル
Domain-Adapted Small Language Models for Reliable Clinical Triage
要約
救急部門における緊急度指数(Emergency Severity Index: ESI)の正確な割り当ては、自由記述形式のトリアージ文書の多様性により、誤トリアージやワークフロー非効率を招く課題が続いている。本研究では、オープンソースの小型言語モデル(Small Language Model: SLM)がプライバシーを保護しつつ信頼性の高いトリアージ意思決定支援ツールとして機能するかを検証した。複数のSLMを多様なプロンプトパイプラインで比較した結果、トリアージ記録を簡潔にまとめた「臨床ビネット」が最も高い予測精度をもたらすことが判明した。特にQwen2.5-7Bが精度・安定性・計算効率の最良バランスを示した。専門家監修データおよびシルバー標準の小児トリアージデータを用いた大規模ドメイン適応により、ファインチューニング済みQwen2.5-7BはすべてのベースラインSLMおよびGPT-4oを含む大型商用モデルを上回り、臨床的に重大な誤分類を大幅に削減したと報告している。
筆者コメント
本研究が注目される点は、GPT-4oのような大規模商用LLMをファインチューニング済み7BクラスのSLMが上回ったという主張にある。これはMedPaLMやClinical-T5など医療特化LLMの流れとは異なり、「大きさより特化度」を実証する位置づけと見られる。Qwen2.5-7Bは比較的新しいアーキテクチャであり、多言語対応も備えるため、日本語の電子カルテや救急記録への転用可能性は一定あると考えられる。ただし、日本の救急現場ではESIではなくJTAS(Japan Triage and Acuity Scale)が用いられており、そのまま適用するにはラベル体系の読み替えとドメイン固有データの再整備が必要になると思われる。また「シルバー標準データ」の品質や規模、アノテーション手順の詳細がアブストラクトからは不明であり、再現性の確認には論文本文の精査が不可欠だろう。プライバシー保護を売りにしたオンプレミス展開を想定している点は、個人情報保護規制が厳しい医療機関にとって現実的な選択肢として評価できる。実務導入時はモデルの誤出力に対するヒューマン・イン・ザ・ループの設計が依然として重要と考えられる。
※ このコメントは本サイト独自のものです。論文・記事の公式見解ではありません。