研究发现AI像ChatGPT一样, 在真正的医学谈话中表现不佳, 尽管测试评分良好。

来自哈佛医学院和斯坦福大学的研究人员发现,尽管象ChatGPT这样的AI模型在标准化医学测试方面表现良好,但它们在现实世界医学对话中的效力有限。 该研究使用了一个新的评价框架,称为CRAFT-MD,它模拟现实世界临床互动。 AI模型努力收集患者信息和准确诊断,强调在临床环境使用这些工具之前需要更现实的测试方法。

2个月前
10 文章