人工智能治理沙龙回顾 I人工智能建议的时机如何影响诊断决策
信息来源:RUC人工智能治理研究院 发布日期:2025年10月26日
2025年10月22日下午,中国人民大学人工智能治理研究院举办第九期“人工智能治理沙龙”,聚焦人工智能在医疗诊断决策中的实际应用与机制设计。本次沙龙由中国人民大学商学院管理科学与工程系讲师、人工智能治理研究院研究员殷佳敏担任主讲嘉宾,人工智能治理研究院院长刘玮主持。殷佳敏老师围绕“人工智能建议的时机如何影响诊断决策”展开报告,探讨了如何通过合理设置AI介入时机,提升医生诊断质量与人机协作效率。
01
一个被忽视的变量:AI辅助诊断的建议时机
AI系统已广泛应用于辅助疾病诊断、影像识别、病历分析等工作。然而,现有研究对AI是否真正提升诊断效率仍存争议:部分研究发现AI能优化医生的诊断决策表现,另一部分则未观察到明显的改善。殷佳敏老师指出,结论不一的原因在于几个关键的研究缺口:
· AI建议的提供时机可能是一个被长期忽视的关键变量。
· 多数研究集中于不具有可解释性的“黑箱”AI和相对成熟的AI图像识别技术,基于自然语言处理技术(NLP)的病历分析研究相对薄弱。
· 以往研究对医生资质、病例典型性等因素的讨论并不充分。
为此,殷佳敏老师将研究场景设定为更具挑战性的医学病历文本解读,并采用可解释AI系统,通过分析医生的口头决策报告,深入探究其理解与评估AI推理依据的认知过程。该研究旨在厘清一个核心问题:何时向医生提供可解释的AI建议,才能最大程度提升其临床决策质量?
02
实验如何展开:三组设计、“出声思维法”与真实病例
为探究AI建议时机的影响,殷佳敏老师与研究团队合作开展了一项控制实验,招募来自新加坡两家大型医院的急诊与普外科医生作为参与者,以急性阑尾炎及其鉴别诊断为场景开展控制实验。医生被随机分为三组:
· 事前建议组:医生在阅读病例的同时获得AI诊断建议;
· 事后建议组:医生先独立做出初步诊断,再获取AI建议并形成最终诊断;
· 控制组:医生全程独立完成诊断,不接收AI建议。
实验采用“出声思维法”,要求医生在诊断过程中实时口述其思考内容,以便研究者以理解其诊断逻辑及与AI建议的互动方式。实验选取了18个真实临床病例,这些病例在典型性(高、中、低)与AI建议正确性上均经过严格设计,以模拟真实的诊断环境。
03
研究结果:事后建议显著提升诊断表现
研究从诊断准确性和诊断校准两个方面进行评估,其中,诊断校准衡量的是医生信心与实际诊断准确性之间的匹配程度(例如,过度自信或信心不足)。实验结果显示,事后建议组在诊断准确性上表现最佳,同时过度自信水平显著降低;事前建议组的诊断准确性虽显著优于无AI辅助的控制组,但其过度自信问题并未得到明显改善。
为进一步揭示机制,研究团队对医生的“出声思维”内容进行编码分析,得到如下发现:
· 事后建议组医生会主动比对AI的推理与自己的判断,关注更多临床特征,考虑更多合理的替代诊断,从而构建出更全面的临床判断。
· 事前建议组医生更倾向于将AI建议视为信息提示工具,不去深究AI背后的推理逻辑,这也削弱了对病例的整体分析。
04
寻找平衡:准确性、效率与医生体验的权衡
研究表明,事后建议的有效性源于其保留了医生的独立诊断过程。当医生先形成自己的判断再接触AI建议时,会主动比对反思,重新审视病例和AI推理依据。这种互动带来双重优势:促进更全面的特征考察,并增强对错误建议的辨别力。
基于此,殷佳敏老师提出,AI的真正价值不仅在于技术本身,更在于如何将其融入医生的既有工作流程:
· 若以诊断准确性为重,应优先采用“事后建议”;
· 若以诊断效率为先,事前建议仍然是比不用AI更好的选择;
· 值得注意的是,主治医师从AI中的获益通常高于主任医师,这提示我们需关注不同资质医生的差异化需求。同时,事后建议带来的决策压力可能影响医生使用意愿,因此在AI部署中需充分考虑医生的操作习惯与专业自主性。
05
交流与讨论
报告过程中和结束后,在场的听众与殷佳敏老师进行了热烈和深入的讨论。
劳动人事学院魏昕教授就相关的实验设计和结论与殷佳敏老师进行了细致的讨论,并结合自身研究,向殷佳敏老师提问:在均为事后建议的模式下,AI教练(AI Coaching)与传统的人类教练(Human Coaching)带来的学习效果是否存在差异?
殷老师指出,虽然两种教练方式都能促进学习,但作用机制存在显著差别:学习者面对AI教练的错误时表现出更强的质疑精神;而人类教练因其天然权威性,学习者更容易接受其错误观点。
有同学提问:如果医生在诊断时相信AI的判断,但患者却不信任,在这种情况下医生应该如何处理?殷佳敏老师指出,实践中医生通常不会主动告知患者AI的参与,因为最终决策责任仍在医生自身。而且AI准确率仍有不足,医生对潜在的医疗风险与权责问题存在顾虑,实际使用意愿不高。
刘玮老师提出两点关切:其一,研究结论“事后建议更优”是否“显而易见”,类似让学生先思考再核对答案,比直接给学生看答案效果更好?其二,该结论是否预设了AI建议总是正确,或比医生水平更高?殷佳敏老师回应:首先,这一结论符合我们的直觉,但研究通过严谨实验证明,即便在竞争性假设下,事后建议组依然表现更优;其次,实验设计了错误的AI建议案例,发现即便AI出错,事后建议仍能通过激发医生思考而提升诊断水平,说明其有效性并不依赖于AI的绝对正确性。
06
总结
从AI建议时机的精准设计到医生诊断过程的深度解析,本次沙龙揭示了有效人机协作的关键不在于技术本身,而在于如何将其融入人类的认知流程。这不仅为医疗AI落地提供了思路,更启示我们:技术的终极价值并非替代人类,而是应当尊重并激发人的独立思考和批判性思维。
Copyright ©2016 中国人民大学科学技术发展部 版权所有
地址:北京市海淀区中关村大街59号中国人民大学明德主楼1121B 邮编:100872
电话:010-62513381 传真:010-62514955 电子邮箱: ligongchu@ruc.edu.cn
京公网安备110402430004号