https://jamanetwork.com/journals/jamanetworkopen/fullarticle/2825395
研究团队随机从史丹佛大学、维吉尼亚大学等机构招募了50名医生,其中包括44名内科医
生、5名急诊医生和1名家庭医生,总共26名主治医师和24名住院医生。研究团队接着再从
90年代以来的105个经典病例中进行了选择和改编。所有病例均来自真实病人但最终诊断结
果从未公开,这样医生和ChatGPT都无法预先知晓答案。4位专业医师选出6个最终入选病例
给受试者一个小时做判断。
研究团队使用提示工程框架,迭代开发了一个最优的0样本提示,其中包含了任务细节、背
景、指示等关键要素,且每个病例使用相同提示。研究员会将优化后提示连同病例内容输
入ChatGPT,每个病例独立运行三次。研究员不对ChatGPT的输出做任何人工修改直接交给
评分者一起盲评,评分者也不知道哪些结果由ChatGPT产生。
结果单独使用ChatGPT得到的诊断得分中位数高达92%,明显高于对照组,且p值为0.03,具
有统计意义。需要注意的是,这些病例是经过人类临床医生筛选和总结,人类已经对提取
关键资讯。在实际临床中,获取资讯的过程更加复杂,因此实验结果并不代表大模型能在
临床中取代人类 。