人工智能或引发＂数字痴呆＂？惊人研究揭示AI认知衰退迹象

新的研究结果对“人工智能将很快取代人类医生”这一假设提出了挑战。

研究表明，顶级的人工智能模型在进行MoCA测试时，展现出了与早期痴呆症状相类似的认知障碍。这些发现凸显了人工智能在临床应用中存在的局限性，尤其是在那些需要视觉和执行技能的任务方面。

人工智能中的认知障碍

一项发表在《英国医学杂志》（the BMJ）圣诞版上的研究显示，几乎所有领先的大型语言模型，也就是所谓的“聊天机器人”，在使用通常用于检测早期痴呆症的评估方法进行测试时，都呈现出了轻度认知障碍的迹象。

研究还发现，这些聊天机器人的旧版本，就像年迈的人类患者一样，在测试中的表现更为糟糕。作者认为，这些发现“挑战了人工智能将很快取代人类医生的假设”。

AI的进步和推测

人工智能的最新进展既引发了人们的兴奋，也带来了担忧，即聊天机器人是否会在医疗任务中超越人类医生。

尽管之前的研究表明，大型语言模型（LLM）在各种医学诊断任务中表现出色，但到目前为止，它们在面对类似人类的认知障碍（如认知能力下降）时的潜在脆弱性在很大程度上尚未被深入探索。

评估人工智能的认知能力

为了填补这一知识空白，研究人员使用蒙特利尔认知评估（MoCA）测试来评估领先的、公开可用的大型语言模型的认知能力——包括ChatGPT版本4和4o（由OpenAI开发）、Claude 3.5“Sonnet”（由Anthropic开发）以及Gemini版本1和1.5（由Alphabet开发）。

MoCA测试常被用于检测认知障碍和痴呆症的早期症状，尤其在老年人群体中较为常见。通过一系列简短的任务和问题，它可以对包括注意力、记忆力、语言、视觉空间技能和执行功能在内的多种能力进行评估。该测试的最高分数为30分，26分及以上通常被视为正常。

AI在认知测试中的表现

给大型语言模型布置每项任务的指示与给人类患者的指示完全相同。评分按照官方指南进行，并由执业神经科医生进行评估。

ChatGPT 40在MoCA测试中得分最高（满分30分中的26分），其次是ChatGPT 4和Claude（满分30分中的25分），而Gemini 1.0得分最低（满分30分中的16分）。

视觉和执行功能方面的挑战

所有聊天机器人在视觉空间技能和执行任务方面的表现都不尽人意，例如造路任务（将圈起来的数字和字母按升序连接起来）以及绘制时钟测试（绘制显示特定时间的钟面）。双子座模型在延迟回忆任务（记住五个单词序列）中未能达标。

不过，大多数其他任务，包括命名、注意力、语言和抽象等，所有聊天机器人都能较好地完成。

然而，在进一步的视觉空间测试中，聊天机器人无法表现出同理心，也无法准确解读复杂的视觉场景。只有ChatGPT 40在Stroop测试的不一致阶段取得了成功，该测试通过颜色名称和字体颜色的组合来衡量干扰对反应时间的影响。

人工智能对临床环境的影响

这些都是观察性的发现，作者承认人类大脑和大型语言模型之间存在着本质的差异。

然而，他们指出，在需要视觉抽象和执行功能的任务中，所有大型语言模型的统一失败凸显了一个重要弱点，这可能会阻碍它们在临床环境中的应用。

因此，他们得出结论：“不仅神经学家不太可能在短期内被大型语言模型所取代，而且我们的研究结果表明，他们可能很快就会发现自己在治疗新的虚拟患者——患有认知障碍的人工智能模型。”

热点资讯