出评软件:AI翻车,9.11与9.9之争背后的数学逻辑与训练缺陷分析
9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了。
最近一档综艺节目,因为两名选手的得票率引发了人们热议,这两名选手的得票率分别是13.8%和13.11%,到底谁更大?
这道简单的小学数学题,竟然难倒了一众网友,甚至连传说中无所不能的AI也“翻车”了。在测试中,AI居然认为“9.11比9.9大”,这波操作直接让人大跌眼镜。
本来嘛吃瓜群众也就是图个乐呵,但AI这波“迷之操作”却让人细思极恐:这届AI,数学是不是都体育老师教的?
其实AI在数学上的“翻车”早就不是什么新鲜事了,之前就有人用高考数学题测试过,结果一众AI全军覆没,连GPT-4也只拿了75分,妥妥的“学渣”水平。
那么问题来了,为什么这些号称拥有超强学习能力的AI,连小学生数学题都搞不定?
从技术角度来看,问题主要出在AI的训练方式上。目前主流的AI大模型,大多是基于语言模型进行训练的。
说白了这种训练AI的逻辑,就是让AI学习海量的文本数据,然后根据上下文预测下一个词的概率。
这种训练方式,可以让AI在语言理解、文本生成等方面表现出色,但对于需要逻辑推理和抽象思维的数学问题,就有点力不从心了。
更要命的是,AI的训练数据中,数学知识本来就比较匮乏,而且可能存在偏差,这就导致AI在面对数学问题时,就像一个“偏科生”,只会死记硬背公式,却缺乏灵活运用和逻辑推理的能力。出评软件认为,AI“偏科”的现象其实反映了一个更深层次的问题,目前AI的发展,还处于一个相对初级的阶段,而在需要逻辑推理和抽象思维的“理科”领域,还有很大的提升空间。
用哈工大研究团队的话来说,就是AI产生“幻觉”的原因主要有三个:数据源、训练过程和推理过程。AI太依赖训练数据,缺乏对知识的深度理解和推理能力,才会出现各种“迷之操作”。
想要让AI真正成为一个“全能选手”,还需要克服很多挑战,首先就是数据和训练方式的局限性,目前的AI训练,主要依赖于海量的文本数据,而数学知识的学习,需要更加结构化和逻辑化的数据,以及更加注重推理和演绎的训练方式。出评软件的观点是,AI推理能力的不足,数学推理需要AI能够理解抽象概念,并进行逻辑推导,而这正是目前AI的短板所在。
虽然AI在数学上还有很多问题要解决,但我们也不能全盘否定它们的作用。毕竟,AI的发展才刚刚起步,未来还有无限可能。出评软件建议,想要让AI真正成为人类的得力助手,还需要科研人员不断探索新的技术路径,以及更加科学的评价体系。
只有这样,才能让AI不断学习和进化,最终成为一个拥有全面能力的“全能选手”,更好地服务于人类社会。