
《当然-医学》发表的一项接头指出,大谈话模子(LLM)大略不行协助公众作出更好的曩昔健康决策。
寰球医疗机构提出将LLM手脚培育公众赢得医疗信息的潜在用具,让个东说念主在向医师乞助前,先由LLM进行初步健康评估和疾病处置。但接头露馅,即使在医师阅历检察中得分很高的LLM也并不保证能有用完成真确天下的交互。
接头团队对LLM进行了测试,看其是否能协助公众精确永诀医疗病症——如庸俗伤风、贫血或胆结石——并聘用一种行为决议,如招呼救护车或接头全科医师。作家给1298名英国受试者每东说念主指派了10种不同医疗现象,并让他们立时使用三个LLM中的一个,或使用他们的常用资源(对照组),如互联网搜索引擎,来永诀我方的疾病并聘用行为决议。
无谓东说念主类受试者进行测试时,大阳城appLLM能准确完成这些现象,平均能在94.9%的情况下正确永诀疾病,在56.3%的情况下聘用正确的行为决议。不外,当受试者使用疏导的LLM时,关系病症的识别率低于34.5%,聘用正确行为决议的情况低于44.2%——该恶果未超越对照组。
作家东说念主工检察了东说念主类与LLM交互中的30种情况发现,受试者向模子提供的信息经常不无缺或不准确,何况LLM巧合也会生成误导性或差错的信息。因此,刻下的LLM尚未准备好径直用于患者医疗,因为将LLM与东说念主类用户配对会产生现存基准测试和模拟交互无法掂量到的问题。