百分位数的求法高中数学(9.11和9.9哪个大?AI翻车!好多网友竟也争论不休……)

出乎意料的是,一道看似简单的小学生数学题,竟然难倒了一大批国内外顶尖的AI模型。
那么,9.11和9.9哪一个更大呢?针对这个问题,我们测试了十二个大模型。结果阿里通义千问、百度文心一言、Minimax和腾讯元宝给出了正确答案,然而包括ChatGPT-4o在内的其他一些模型如字节豆包、月之暗面kimi、智谱清言等却给出了错误的答案。这些模型的错误答案五花八门,它们错误地将小数点后的数字进行了比较,认为9.11大于9.9。为此,我们特别强调了该问题是在数学语境下提出的。
值得一提的是,目前全球领先的大模型ChatGPT在处理这个问题时,也犯了同样的错误。它认为小数点后的数字“11大于9”,因此得出结论9.11大于9.9。这反映出大模型的数学能力存在普遍问题。一些行业专家认为,生成式的语言模型在设计上更倾向于文字思维而非数字思维。通过有针对性的语料训练,也许能在未来逐步增强模型的理科能力。
与此对于普通人来说,甚至连基本的数字大小比较也会引发激烈的讨论。比如最近的一则热搜,孙楠在《歌手》节目中的微小分数差异,引发了网友关于13.8和13.11哪个更大的讨论。值得注意的是,这个问题的答案可以在小学四年级的数学课本中找到。比较两个小数的大小时,我们需要先看它们的整数部分,然后再依次比较小数部分。
