メニュー

10種類の大規模言語モデルに対する検索拡張生成と、手術適否評価への汎用性

NPJ digital medicine•2025-04-05•PubMed

総合: 80.5革新性: 9インパクト: 8厳密性: 7引用可能性: 9

概要

58のガイドラインを用いた14の術前シナリオで、RAGを用いたGPT-4は96.4%の精度で人間を有意に上回り、幻覚もなく迅速な回答を示した。ガイドライン根拠のLLMは安全かつ効率的な術前適否評価を支援し得ることが示唆された。

主要発見

58のガイドラインに基づく14の術前シナリオで10種LLMのRAGを評価。
3234のAI回答と448の人間回答を比較し、GPT-4 RAGは96.4%の精度で人間（86.6%）を上回った（p=0.016）。
幻覚は認められず、出力はより一貫的で約20秒以内に提示された。

臨床的意義

医療機関は、データセキュリティ・監査証跡・臨床家の監督・地域ガイドライン統合のガバナンス体制下で、RAG型術前意思決定支援の試行導入によりリスク層別化と指示の標準化を図れる。

なぜ重要か

周術期の意思決定課題で、ガイドライン根拠のAIが人間を上回ることを示し、臨床導入の鍵である一貫性や幻覚リスクに対処した点が重要である。

限界

症例シナリオによる評価であり実臨床での外的妥当性は実装研究を要する。
成績はガイドラインの質・網羅性やプロンプト設計に依存し、対象外ガイドラインへの汎用性は不確実。

今後の方向性

AI-RAG支援の術前外来を対象とした前向き臨床試験により、手術中止率、安全事象、業務効率、費用対効果、ならびに公平性とガバナンスの評価が望まれる。

研究情報

研究タイプ: コホート研究
研究領域: 診断
エビデンスレベル: III - 無作為化を伴わない前向きの方法評価研究。
研究デザイン: OTHER