-
继DeepSeek后,阿里云通义千问也追上OpenAI
-
连政guanchazhewanxgun
中国不仅有DeepSeek,还有通义千问。
阿里云通义团队于大年初一发布旗舰模型“Qwen2.5-Max”,已成为继深度求索(DeepSeek)后,第二家可以比肩美国OpenAI公司o1系列的中国大语言模型。
近日,三方基准测试平台LMArena的大语言模型盲测榜单(“ChatBot Arena LLM”)最新排名显示,“Qwen2.5-Max”以1332分排总榜第7名,超过了深度求索的“DeepSeek-V3”以及OpenAI的“o1-mini”。而在数学和编程方面,“Qwen2.5-Max”则排名第1,在Hard prompts方面排名第2。
“ChatBot Arena LLM”榜单由美国加州大学伯利克分校天空计算实验室与LMArena联合开发,通过用户盲测的方式,覆盖了对话、代码、图文生成、网页开发等多维度能力评估,最终基于260万票结果反映出197个模型在真实体验下的排名情况,也是业内公认的权威榜单。
该榜单最新的更新时间为当地时间的2月2日,其中OpenAI的多个版本模型占据高位,比如第3位的“ChatGPT-4o”,同时还有谷歌的“Gemini-2.0”、xAI的“Grok-2”等,但这些模型均为闭源模型。
而在开源模型方面,“DeepSeek-R1”一骑绝尘,与“ChatGPT-4o-latest”并列榜单第3,紧随其后的就是排名第7的阿里云通义“Qwen-max-2025-01-25”(即Qwen2.5-Max),“DeepSeek-V3”和中国智谱模型“GLM-4-Plus-0111”则分别排名第8、第9,而阶跃星辰的“Step-2-16K-Exp”模型则与“o1-Mini”并列第10。榜单前10名中有5个中国大语言模型,也体现出中国人工智能团队在全球范围内的强技术竞争力。
去年6月、9月,阿里云通义模型也曾两度登顶全球最强开源模型的宝座,但由于未能追平超越闭源模型,讨论热度不及12月的DeepSeek-V3。今年1月29日凌晨1时,阿里云通义团队正式对外发布“Qwen2.5-Max”,该模型采用超大规模混合专家(MoE, Mixture of Experts)架构,训练数据超过20万亿tokens,并在知识(测试大学水平知识的MMLU-Pro)、编程(LiveCodeBench)、全面评估综合能力的(LiveBench)以及人类偏好对齐(Arena-Hard)等主流权威基准测试上,展现出全球领先的模型性能。
值得注意的是,“Arena-Hard”项主要测试模型在复杂指令理解和多轮对话中的表现,涵盖了各种领域的知识和任务,并且打分的时候要严格对齐人类偏好。其中,对游戏开发、数学证明等专业项会给予较高分数,而对类似全球餐厅推荐、送礼创意等答案会出现模棱两可情况的问题给予较低权重,“评委”则通常也由国外模型担当。而这种情况下,“Qwen2.5-Max”在该基准测试中仍能够迅速分析问题,整合相关知识,给出全面且准确的回答,最终以89.4分超越全部对比模型(DeepSeek-V3、Llama-3.1-405B-Inst、GPT-4o-0806、Claude-3.5-Sonnet-1022)。
据阿里云称,由于无法访问“GPT-4o”和“Claude-3.5-Sonnet”等闭源模型的基座模型,通义团队将“Qwen2.5-Max”与目前领先的开源MoE模型“DeepSeek V3”、最大的开源稠密模型“Llama-3.1-405B”,以及同样位列开源稠密模型前列的“Qwen2.5-72B”进行了对比。在包括MMLU等所有11项基准测试中,Qwen2.5-Max全部超越了对比模型。
对此,ChatBot Arena官方给出评价:“(Qwen2.5-Max)在多个领域表现强劲,特别是专业技术向的(编程、数学、硬提示等)。”
本文系观察者网独家稿件,未经授权,不得转载。
- 责任编辑: 连政 
-
美国邮政暂停接收来自中国内地和香港的入境包裹
2025-02-05 14:44 观网财经-海外 -
华为董事长:去年营收超8600亿
2025-02-05 14:03 观网财经-科创 -
中国七大云厂商集中上线DeepSeek
2025-02-05 11:28 观网财经-科创 -
A股deepseek概念掀涨停潮,机器人板块走强
2025-02-05 10:56 观网财经-科创 -
“硅谷有种常见病,认为圈外所有创新都是作弊得来的”
2025-02-02 21:01 观网财经-科创 -
OpenAI新模型价格骤降,整体性价比未能超越DeepSeek R1
2025-02-02 16:32 观网财经-科创 -
华为和DeepSeek联手,硅基流动首发被挤爆
2025-02-01 18:23 观网财经-科创 -
英特尔也加入了:针对DeepSeek进行深度优化
2025-02-01 15:21 观网财经-科创 -
韩国股市补跌:内存芯片巨头暴跌10%
2025-02-01 14:28 观网财经-科创 -
2024年末银行理财支持实体经济资金规模超20万亿元
2025-02-01 13:27 金融观察 -
苹果折叠屏要来了?库克称手机创新远未结束,还提到DeepSeek
2025-02-01 12:01 观网财经-科创 -
-
苹果最赚钱的一个季度,在华收入却遭滑铁卢
2025-01-31 10:56 -
星巴克第一财季同店销售下滑4%,中国同店销售下降6%
2025-01-29 13:40 观网财经-消费 -
英国监管机构考虑调查亚马逊和微软云服务
2025-01-29 13:34 观网财经-海外 -
高盛警告:避险基金已开始撤离对美国科技股的押注
2025-01-29 12:43 观网财经-海外 -
阿里云发布通义千问旗舰版模型Qwen2.5-Max
2025-01-29 10:54 观网财经-科创 -
美国科技股收复部分失地,昨夜中国资产大涨
2025-01-29 10:53 观网财经-海外 -
去年净亏118亿美元,波音放弃制定2025年财务目标
2025-01-29 10:44 -
DeepSeek掀翻美股,凭什么?
2025-01-28 18:44
相关推荐 -
-
“对华干邑出口下跌60%”,法国外长计划访华 评论 59一场数学竞赛背后的中俄科技与教育合作 评论 34澳大利亚有心追赶,“但中国控制着价格” 评论 57普京一脚把球踢回去了,特朗普这次接得住吗? 评论 83美俄通话,“乌克兰在菜单上” 评论 199最新闻 Hot
-
“对华干邑出口下跌60%”,法国外长计划访华
-
“外资创纪录半年抛售近290亿美元印股,资金流向中国”
-
“美俄周日继续谈,要弄清楚这些细节”
-
一场数学竞赛背后的中俄科技与教育合作
-
埃尔多安主要政敌被拘,土耳其金融市场剧震
-
“向中国学生关闭大门会削弱美国领导地位,别弄巧成拙”
-
为应对美国钢铁关税等打击,韩国想了个法子
-
澳大利亚有心追赶,“但中国控制着价格”
-
普京一脚把球踢回去了,特朗普这次接得住吗?
-
8万页!“有人要失望了”
-
加沙女孩:妈妈,我想死,在天堂能长出头发
-
“中国此举令人惊讶,底气来自‘猪肉长城’”
-
万斯开喷:这玩意专“毒”西方人
-
“美企重返俄罗斯将非常困难,最好的选择是…”
-
“MAGA希望万斯竞选下届总统”
-
跨性别者参军禁令,也被叫停了
-