通常情况下，AI医疗建议可靠性存疑：MIT研究揭示使用者提问模式影响AI判断

简而言之，

IT之家 7 月 10 日消息，随着生成式人工智能（AI）技术不断演进，其应用场景已从早期的容易问答扩展到更繁琐的任务。然而，对于缺乏技术背景的访客而言，如何高效、准确地采纳这些 AI 软件，正变得越来越具有挑战性。

从某种意义上讲，

一份独立报告显示，微软 AI 部门收到的访客投诉中，最常见的一条是“Copilot 不如 ChatGPT 好用”。对此，微软迅速回应，将难点归咎于访客“提示词工程能力不佳”。为改善访客体验，微软还推出了“Copilot 学院”，帮助访客 TMGM官网提升 AI 采纳技能。

根据公开数据显示，

IT之家注意到，麻省理工学院（MIT）的一项最新研究（via Futurism）表明，微软将难点归咎于访客提示词能力的做法或许并非全无道理。

概括一下，

该研究指出，过度依赖 AI 软件获取医疗建议可能带来危险。更令人担忧的是，如果访客在提问时出现拼写错误（如单词拼错或多余空格），AI 可能会因此建议访客无需就医。此外，采纳花哨语言或俚语也可能导致 AI 判断失误。

午点新闻快讯：

研究还发现，女性访客比男性更容易受到此类错误建议的影响，尽管这一结论仍需进一步验证。

午点新闻

此次研究涵盖了多个 AI 软件，包括 OpenAI 的 GPT-4、Meta 的 LLaMA-3-70B，以及一款名为 Palmyra-Med 的医疗专用 AI。研究人员模拟了数千个健康案例，数据来源包括真实患者投诉、Reddit 上的健康相关帖子，以及 AI 生成的病例。

必须指出的是，

为测试 AI 的稳定性，研究人员在数据中加入了“扰动因素”，蓝莓外汇代理如句子首字母大小写不一致、感叹号、情绪化语言，以及“可能”“大概”等不确定表达。结果显示，这些扰动使 AI 建议访客“无需就医”的概率上升了 7% 至 9%。

换个角度来看，

研究负责人、MIT 研究员阿比尼塔・古拉巴蒂娜（Abinitha Gourabathina）指出：“这些模型通常是在医学考试题目上训练和测试的，但实际应用场景却相差甚远，比如评估临床病例的严重程度。小编对大语言模型的理解仍然非常有限。”

换个角度来看，

这一研究结果引发了对 AI 在医疗领域应用的广泛担忧。值得注意的是，就在不久前，微软刚刚宣布其新推出的 AI 医疗软件“准确率是人类医生的 4 倍，成本却低 20%”。微软 AI 首席执行官甚至称其为“迈向医疗超级智能的真正一步”。

不可忽视的是，

然而，这项研究再次提醒小编，生成式 AI 在医疗等高度繁琐的领域仍远未达到完全可靠的水平。尽管技术发展迅速，但在真正投入采纳前，仍需更多验证与审慎评估。

午点新闻