-
阿里、Kimi推理大模型集中发布,实际效果却……
-
张广凯13764468101
28日,阿里通义千问推出了自己的数学推理大模型——QwQ-32B-Preview。这是继Kimi之后,近期第二款对标OpenAI o1系列的推理大模型。
据介绍,QwQ-32B-Preview包含325亿个参数,能够处理最长32000个tokens的提示词,在GPQA测试中的评分为 65.2%,展示了研究生水平的科学推理能力。在AIME和MATH基准测试中,它的表现优于OpenAI的两个推理模型o1-preview和o1-mini。
并且,QwQ-32B-Preview在更加宽松的Apache 2.0许可证下“公开”可用,这意味着它可以用于商业用途。
此前的11月16日,在Kimi正式上线一周年之际,月之暗面发布了最新数学模型k0-math。宣称在中考、高考、考研以及入门竞赛题MATH等4个数学基准测试中,可以超越OpenAI o1-mini和o1-preview。
那么这两个国产推理大模型的实际能力究竟如何?
值得一提的是,通义官方在QwQ的介绍文章中,首先提到的并不是其性能,而是自己的局限性。文章指出,作为预览版本,QwQ-32B-Preview 展现了令人期待的分析能力,同时也存在以下局限:
1.语言切换问题:模型可能在回答中混合使用不同语言,影响表达的连贯性。
2.推理循环:在处理复杂逻辑问题时,模型偶尔会陷入递归推理模式,在相似思路中循环。这种行为虽然反映了模型试图全面分析的努力,但可能导致冗长而不够聚焦的回答。
3.安全性考虑:尽管模型已具备基础安全管控,但仍需要进一步增强。它可能产生不恰当或存在偏见的回答,且与其他大型语言模型一样,可能受到对抗攻击的影响。我们强烈建议用户在生产环境中谨慎使用,并采取适当的安全防护措施。
4.能力差异:QwQ-32B-Preview 在数学和编程领域表现出色,但在其他领域仍有提升空间。模型性能会随任务的复杂度和专业程度而波动。我们正通过持续优化,努力提升模型的综合能力。
上述文章指出,“QwQ 既展现出能力,又保持着谦逊;既积累知识,又永远对未知充满好奇。”在看惯了自吹自擂的商业通稿之后,通义的这种谦逊态度已经足以眼前一亮。
于是我们拿几个问题实际测试了上述两个模型的能力。
首先是出自今年高考全国卷的一个数学题:当x∈[0,2π]时,曲线y=sinx与y=2sin(3x-π/(6))的交点个数有几个?
面对这种非常标准化的问题,QwQ和k0-math都表现不错,给出了正确的答案:6个。
而且,两者都体现出了推理大模型的一个重要能力——自我反思。
在解题过程中,它们首先尝试了代数方法,把问题转化为求解方程sinx=2sin(3x-π/(6))。但发现这个方程非常难解之后,又推翻了最初的方法,转而寻求几何方法来解题。
上图是k0-math,下图是QwQ的思考过程
在用几何方法走通之后,两个大模型也都绞尽脑汁,用代数方法重新求解,并得到了正确答案。k0-math甚至在解题之后还检查了一遍。
可以看到,在纯粹的数学能力上,两个模型至少都达到了普通人的水平。
不过正如通义文章中所说,随着问题的复杂度和专业性提高,它们的表现还不尽如人意。
不久之前,我们曾经拿一个用车成本的问题测试过几个大模型的逻辑能力,这次我们不妨再试一次。问题如下:分析乐道L60车辆采用BaaS方案下的每年用车成本,BaaS方案和电池买断方案哪个更划算。
这个问题既涉及到BaaS方案本身的复杂性,而且由于问题表述相对模糊,更考验大模型像人一样理解问题的能力。
这次,两个模型也都不同程度上翻车了。
首先,k0-math基本正确给出了计算方式,但是在具体每项成本的计算上使用了英里和美元作为单位,具体价格也仅为假设,而不是像Kimi探索版那样通过搜索获得准确价格。
这体现出k0-math和Kimi探索版的鲜明区别——虽然强化逻辑,但或许是出于降低成本而弱化了搜索能力。
QwQ却在逻辑上也存在瑕疵。
从上图可以看到,QwQ很“贴心”地考虑了贷款购车的情况,给出了5年分期方案。不过这个简单的单利贷款的月供问题,QwQ却算错了。
而在最后的汇总环节,QwQ又把全款购车费用和贷款月供进行了重复计算,极大高估了总体用车成本。
目前看来,所谓推理大模型,主要还是依赖于两种算法的加强——对复杂问题的拆分,以及通过反思来检查。但想要真正具有人类一样的推理能力,仅有这两个原则性方法还是远远不够的,仍然需要产品层面的进一步完善。
本文系观察者网独家稿件,未经授权,不得转载。
标签 大模型- 责任编辑: 张广凯 
-
中国手机厂商引领市场反弹,iPhone错失增长良机
2024-11-28 18:01 观网财经-科创 -
中铁建投资集团副总经理马建军坠楼
2024-11-28 13:48 -
为应对特朗普加征关税,美科技巨头急囤中国零部件?
2024-11-28 12:51 观网财经-科创 -
事关中企10亿美元锂矿项目,有最新消息
2024-11-28 12:41 海外投资 -
美国两大PC巨头股价同时崩盘,怎么回事?
2024-11-28 10:49 大公司 -
前实习生篡改代码攻击公司模型训练,字节跳动起诉索赔802万
2024-11-28 10:22 -
美国政府对英特尔补贴“缩水”至79亿美元
2024-11-28 09:30 观网财经-科创 -
中国5G智能工厂,何以让国外厂商惊叹?
2024-11-27 17:20 观网财经-科创 -
霸王茶姬加速出海,即将攻入美国市场
2024-11-27 16:34 观网财经-消费 -
刘尚希:中央财政支出比例应提高到30%以上
2024-11-27 15:48 -
沪指涨超1%重回3300点,谷子经济概念股持续爆发
2024-11-27 15:15 金融观察 -
许家印又被采取限制消费措施,股票继续停牌
2024-11-27 14:00 观网财经-金融 -
顺丰登陆港股,前三季度营收超2000亿
2024-11-27 13:21 观网财经-互联网 -
英伟达被曝将在华推出阉割版5090显卡
2024-11-27 12:51 观网财经-科创 -
A股深V翻红,个股跌多涨少
2024-11-27 12:43 观网财经-金融 -
小米在武汉新建智能家电工厂,一期聚焦家用空调
2024-11-27 12:05 观网财经-科创 -
Sora突遭泄露,OpenAI急“拔网线”
2024-11-27 12:02 观网财经-科创 -
酷狗回怼网易云音乐:DIY功能不是我先做的么?
2024-11-27 11:10 观网财经-互联网 -
腾讯:国行Switch将停止网络类服务
2024-11-27 10:29 观网财经-互联网 -
1-10月份全国规模以上工业企业利润同比下降4.3%
2024-11-27 10:03 宏观经济
相关推荐 -
-
细节公布:美军出动超125架战机,还玩了个声东击西 评论 224核设施提前疏散了?“福尔道地区仿佛无事发生” 评论 184“轰炸伊朗未经国会授权且违宪”,她呼吁弹劾特朗普 评论 163美国袭击伊朗三处核设施,“B-2轰炸机参与了” 评论 1053时隔14年,金爵奖再次颁给了中国女演员 评论 57最新闻 Hot
-
“忘了伊拉克、阿富汗?白宫需要头脑清醒的人指出问题”
-
“轰炸伊朗未经国会授权且违宪”,她呼吁弹劾特朗普
-
至少27枚弹道导弹,伊朗开始“报复”
-
伊朗处决一名受雇于以色列的间谍
-
“危险升级!”多方谴责美军袭击
-
袭击伊朗时,他们都在白宫战情室
-
内塔尼亚胡吹捧特朗普:大胆决定将改变历史
-
时隔14年,金爵奖再次颁给了中国女演员
-
印度又生一计,一盆冷水泼来...
-
特朗普威胁伊朗:要么是和平,要么是悲剧
-
“以色列嫌特朗普太磨叽,想提前对伊朗采取单独打击”
-
美国袭击伊朗三处核设施,“B-2轰炸机参与了”
-
美媒发现:两周是特朗普口头禅
-
伊朗福尔道核设施附近居民听到爆炸声
-
《纽约时报》:美国对伊朗开战
-
伊媒:遭袭核设施已提前转移核材料并疏散人员
-