敗血症リアルタイム予測モデルの検証法と性能に関する方法論的システマティックレビュー

NPJ digital medicine•2025-04-07•PubMed

総合: 77.5革新性: 8インパクト: 8厳密性: 7引用可能性: 9

概要

91件の研究のうち、外部かつ全期間検証でモデル／アウトカム両指標を用いたものは54.9%に留まりました。外部・全期間検証では性能が低下し（AUROC中央値0.783）、ユーティリティスコアも内部検証で正から外部検証で負へ低下しました。手作り特徴量は性能を改善し、AUROCとユーティリティ双方で良好といえるモデルは18.7%に限られました。

主要発見

外部・全期間かつモデル／アウトカム両指標で検証した研究は54.9%にとどまった。
発症6・12時間前のAUROC中央値（0.886／0.861）は、全期間外部検証で0.783に低下した。
ユーティリティスコア中央値は内部検証0.381から外部検証−0.164へ低下した。
手作り特徴量の導入はモデル性能を有意に改善した。
AUROCとユーティリティの双方で高評価となるSRPMは18.7%にとどまった。

臨床的意義

医療機関は敗血症アラート導入前に、外部・全期間検証とユーティリティ評価を必須化すべきです。モデル開発では臨床的手作り特徴量の活用と多施設前向き試験の計画が求められます。

なぜ重要か

外部・全期間・多指標による検証の重要性を明確化し、過大評価回避の基準を提示した点で方法論的ベンチマークを設定。医療AI実装に極めて時宜を得た指針です。

限界

研究間で敗血症定義、モデル構造、アウトカムラベリングが不均一
出版・報告バイアスの可能性と、前向き臨床評価が乏しい点

今後の方向性

多施設・前向き・全期間外部検証を標準化された定義とユーティリティ指標で推進し、リアルタイム臨床AIに特化した報告ガイドラインを整備する。

研究情報

研究タイプ: システマティックレビュー
研究領域: 診断
エビデンスレベル: I - 91研究を対象とした方法論的統合を伴うシステマティックレビュー
研究デザイン: OTHER