首页 > 智能财税 > 智能财税 > 9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

发布时间:2024-07-19 16:28:18来源: 15210273549

导读

一道小学生的数学题竟然难倒了全球AI大模型,只有4个大模型给出了正确答案!这究竟是怎么一回事?快来看看!

 

全球AI大模型被一道小学生数学题难倒

日前,一道来自小学生的数学题却难倒了不少海内外AI大模型,这道题的内容是“9.11和9.9哪个更大”,而仅有4个大模型给出了正确答案。

 

挑战大模型的数学推理能力

大模型的数学能力一直是短板,即便是目前最好的大模型GPT4也仍然有很大进步空间,而此前笔者在采访12位大模型时也得出了一个惊人的结论,这些大模型中仅有4个回答是正确的,而其他8个大模型却都给出了错误的答案。

 

数字切分问题与模型的理解能力

而针对大模型的数学能力,笔者曾进行过深入的采访,大部分行业人士认为大模型数学能力差的根本原因还是出在分词上,即Tokenizer(分词器)在处理数字时会出现问题,导致模型难以正确理解和计算。

 

正确答案揭晓与未来的发展方向

而这道9.11和9.9的大小比较题,12个大模型中,只有阿里通义千问、百度文心一言、Minimax和腾讯元宝答对,其他8个大模型都认为9.11比9.9更大。

 

虽然最终4个大模型给出了正确答案,但这并不能掩饰大模型数学能力的薄弱,毕竟面对简单的大小比较题,8个大模型都给出了错误答案。

 

而对于未来大模型的发展方向,笔者也咨询了不少专家学者以及从业者,针对此前大模型的回答,不少人表示“并不意外”。

一些专家认为,未来在模型的训练数据上会越来越依赖构造型的数据,而不是直接爬取下来的数据,以提升模型的复杂推理能力。

 

因为直接爬取下来的数据中会夹杂大量的错误数据,这些错误数据会误导模型,导致模型做出错误的判断。

而构造型的数据则可以事先筛选,保证数据的准确性和可靠性,从而培养模型健康的思维方式。

智能财税更多>>

非985却不输985的20所好大学,能考上也是妥妥的学霸 开学必看!新学期多项教育新规出台,这些变化与你有关! 高通公布2025财年第一财季财报:营收和利润均有两位数同比增长 关键时刻显身手!工业安卓三防平板电脑M11T平板电脑赋能应急指挥 DeepSeek太会了!来看ThinkPad小黑的使用初体验 新规来袭!2025年3月1日起,新能源与燃油车年检大不同! 试驾零跑C10,性价比之选,不仅是“半价理想” 刚刚,理想汽车2025年第4至5周销量出炉! 蔚来发布2025春节加电报告 最高单日换电突破13万次 2024乘用车数据全出炉:总销量、自主、新能源都有重大突破 啃最难啃的骨头,岚图瞄准东北电车市场 2024年新能源销量:谁还买传统燃油车呀? 1月车市开门黑让人焦虑,补贴新政能救市? 百万级旗舰轿车出动!尊界S800上路曝光,充电不用自己管了? 会有魅族车机吗?新款吉利银河L7实车到店,搭1.5L插混+单档DHT 实车颜值如何?特斯拉Model Y焕新版装车发运,3月开启交付 新款吉利银河L6 EM-i到店,1.5L发动机+单挡DHT,大横屏搭魅族车机 小鹏G7、问界M8、汉L/唐L在列,新一期工信部申报目录出炉 理想L9、问界M9同级,奇瑞风云T11再现身,卖多少钱合适? 预算25万左右买燃油SUV,领克09会是你的菜吗? 配一体式远端屏+鸿蒙座舱,阿维塔06内饰曝光,将于二季度上市 国家版权局公布2025年度第一批重点作品版权保护预警名单 国家统计局:2024年12月份社会消费品零售总额增长3.7% 体育名师孙麒麟:50年人生故事,情系乒乓球 比途观L大一圈 斯柯达Space路试谍照曝光 上汽通用“拼”出收官六连涨,全面吹响合资反攻号角 中国汽车出口600万辆:打了谁的脸,伤了谁的心 特斯拉柏林超级工厂开始生产新款Model Y 市场空间超千亿,无人矿车与Robotaxi谁更有“钱景”? 现代起亚2024年环保汽车出口量创新高