继DeepSeek后，阿里云通义千问也追上OpenAI

APP下载

扫一扫

下载观察者APP

继DeepSeek后，阿里云通义千问也追上OpenAI
- 连政guanchazhewanxgun
分享到：

2025-02-05 15:18:55 字号：A- A A+ 来源：观察者网

中国不仅有DeepSeek，还有通义千问。

阿里云通义团队于大年初一发布旗舰模型“Qwen2.5-Max”，已成为继深度求索（DeepSeek）后，第二家可以比肩美国OpenAI公司o1系列的中国大语言模型。

近日，三方基准测试平台LMArena的大语言模型盲测榜单（“ChatBot Arena LLM”）最新排名显示，“Qwen2.5-Max”以1332分排总榜第7名，超过了深度求索的“DeepSeek-V3”以及OpenAI的“o1-mini”。而在数学和编程方面，“Qwen2.5-Max”则排名第1，在Hard prompts方面排名第2。

“ChatBot Arena LLM”榜单由美国加州大学伯利克分校天空计算实验室与LMArena联合开发，通过用户盲测的方式，覆盖了对话、代码、图文生成、网页开发等多维度能力评估，最终基于260万票结果反映出197个模型在真实体验下的排名情况，也是业内公认的权威榜单。

该榜单最新的更新时间为当地时间的2月2日，其中OpenAI的多个版本模型占据高位，比如第3位的“ChatGPT-4o”，同时还有谷歌的“Gemini-2.0”、xAI的“Grok-2”等，但这些模型均为闭源模型。

而在开源模型方面，“DeepSeek-R1”一骑绝尘，与“ChatGPT-4o-latest”并列榜单第3，紧随其后的就是排名第7的阿里云通义“Qwen-max-2025-01-25”（即Qwen2.5-Max），“DeepSeek-V3”和中国智谱模型“GLM-4-Plus-0111”则分别排名第8、第9，而阶跃星辰的“Step-2-16K-Exp”模型则与“o1-Mini”并列第10。榜单前10名中有5个中国大语言模型，也体现出中国人工智能团队在全球范围内的强技术竞争力。

去年6月、9月，阿里云通义模型也曾两度登顶全球最强开源模型的宝座，但由于未能追平超越闭源模型，讨论热度不及12月的DeepSeek-V3。今年1月29日凌晨1时，阿里云通义团队正式对外发布“Qwen2.5-Max”，该模型采用超大规模混合专家（MoE, Mixture of Experts）架构，训练数据超过20万亿tokens，并在知识（测试大学水平知识的MMLU-Pro）、编程（LiveCodeBench）、全面评估综合能力的（LiveBench）以及人类偏好对齐（Arena-Hard）等主流权威基准测试上，展现出全球领先的模型性能。

值得注意的是，“Arena-Hard”项主要测试模型在复杂指令理解和多轮对话中的表现，涵盖了各种领域的知识和任务，并且打分的时候要严格对齐人类偏好。其中，对游戏开发、数学证明等专业项会给予较高分数，而对类似全球餐厅推荐、送礼创意等答案会出现模棱两可情况的问题给予较低权重，“评委”则通常也由国外模型担当。而这种情况下，“Qwen2.5-Max”在该基准测试中仍能够迅速分析问题，整合相关知识，给出全面且准确的回答，最终以89.4分超越全部对比模型（DeepSeek-V3、Llama-3.1-405B-Inst、GPT-4o-0806、Claude-3.5-Sonnet-1022）。

据阿里云称，由于无法访问“GPT-4o”和“Claude-3.5-Sonnet”等闭源模型的基座模型，通义团队将“Qwen2.5-Max”与目前领先的开源MoE模型“DeepSeek V3”、最大的开源稠密模型“Llama-3.1-405B”，以及同样位列开源稠密模型前列的“Qwen2.5-72B”进行了对比。在包括MMLU等所有11项基准测试中，Qwen2.5-Max全部超越了对比模型。

对此，ChatBot Arena官方给出评价：“（Qwen2.5-Max）在多个领域表现强劲，特别是专业技术向的（编程、数学、硬提示等）。”

本文系观察者网独家稿件，未经授权，不得转载。
|

举报
- 违反法律法规
- 垃圾信息、广告
- 色情、淫秽信息
- 人身攻击
- 谣言、不实信息
- 冒充，冒用信息
- 破坏社区秩序
- 其他
- 涉未成年人有害信息
观察者网举报制度规范
确定取消
标签
- 责任编辑: 连政
- 美国邮政暂停接收来自中国内地和香港的入境包裹
  
  2025-02-05 14:44 观网财经-海外
- 华为董事长：去年营收超8600亿
  
  2025-02-05 14:03 观网财经-科创
- 中国七大云厂商集中上线DeepSeek
  
  2025-02-05 11:28 观网财经-科创
- A股deepseek概念掀涨停潮，机器人板块走强
  
  2025-02-05 10:56 观网财经-科创
- “硅谷有种常见病，认为圈外所有创新都是作弊得来的”
  
  2025-02-02 21:01 观网财经-科创
- OpenAI新模型价格骤降，整体性价比未能超越DeepSeek R1
  
  2025-02-02 16:32 观网财经-科创
- 华为和DeepSeek联手，硅基流动首发被挤爆
  
  2025-02-01 18:23 观网财经-科创
- 英特尔也加入了：针对DeepSeek进行深度优化
  
  2025-02-01 15:21 观网财经-科创
- 韩国股市补跌：内存芯片巨头暴跌10%
  
  2025-02-01 14:28 观网财经-科创
- 2024年末银行理财支持实体经济资金规模超20万亿元
  
  2025-02-01 13:27 金融观察
- 苹果折叠屏要来了？库克称手机创新远未结束，还提到DeepSeek
  
  2025-02-01 12:01 观网财经-科创
- 吴清发声
  
  2025-02-01 09:16 金融观察
- 苹果最赚钱的一个季度，在华收入却遭滑铁卢
  
  2025-01-31 10:56
- 星巴克第一财季同店销售下滑4%，中国同店销售下降6%
  
  2025-01-29 13:40 观网财经-消费
- 英国监管机构考虑调查亚马逊和微软云服务
  
  2025-01-29 13:34 观网财经-海外
- 高盛警告：避险基金已开始撤离对美国科技股的押注
  
  2025-01-29 12:43 观网财经-海外
- 阿里云发布通义千问旗舰版模型Qwen2.5-Max
  
  2025-01-29 10:54 观网财经-科创
- 美国科技股收复部分失地，昨夜中国资产大涨
  
  2025-01-29 10:53 观网财经-海外
- 去年净亏118亿美元，波音放弃制定2025年财务目标
  
  2025-01-29 10:44
- DeepSeek掀翻美股，凭什么？
  
  2025-01-28 18:44
搜索

   观察者头条查看全部

“众叛亲离！要是再发生911，谁还同情美国人？” 评论 68

她对美放狠话，还提到欧盟的“实力地位” 评论 248

美媒竟来碰瓷：解放军这次演训，“是在考验美国决心” 评论 184

围岛集结、多向抵近！现场视频来了评论 195

美国学者开始“流亡” 评论 150

   风闻 · 24小时最热查看全部

   最新视频查看全部
最新闻 Hot
快讯

继DeepSeek后，阿里云通义千问也追上OpenAI

美国邮政暂停接收来自中国内地和香港的入境包裹

华为董事长：去年营收超8600亿

中国七大云厂商集中上线DeepSeek

A股deepseek概念掀涨停潮，机器人板块走强

“硅谷有种常见病，认为圈外所有创新都是作弊得来的”

OpenAI新模型价格骤降，整体性价比未能超越DeepSeek R1

华为和DeepSeek联手，硅基流动首发被挤爆

英特尔也加入了：针对DeepSeek进行深度优化

韩国股市补跌：内存芯片巨头暴跌10%

2024年末银行理财支持实体经济资金规模超20万亿元

苹果折叠屏要来了？库克称手机创新远未结束，还提到DeepSeek

吴清发声

苹果最赚钱的一个季度，在华收入却遭滑铁卢

星巴克第一财季同店销售下滑4%，中国同店销售下降6%

英国监管机构考虑调查亚马逊和微软云服务

高盛警告：避险基金已开始撤离对美国科技股的押注

阿里云发布通义千问旗舰版模型Qwen2.5-Max

美国科技股收复部分失地，昨夜中国资产大涨

去年净亏118亿美元，波音放弃制定2025年财务目标

DeepSeek掀翻美股，凭什么？

“众叛亲离！要是再发生911，谁还同情美国人？”

特朗普明天将在白宫开会，讨论TikTok命运

“白宫正研究：丹麦给格陵兰6亿，我们加价”

美国司法部要求判他死刑：让美国再次安全

她对美放狠话，还提到欧盟的“实力地位”

“欧美关系搞砸了，欧盟准备以自己的方式应对中国 ”

周一鸣接棒港警“一哥”

他演讲超25小时，狂喷特朗普马斯克

解放军围岛演习，菲军方乱插嘴

拉夫罗夫：俄美准备举行新一轮会谈

魔幻！白宫发言人居然来了句：美国被剥削的日子一去不复返啦

俄乌冲突以来首次，俄总统特别代表或将访美

“斯塔默这么努力地讨好特朗普，但没回报”

特朗普最新对朝表态

美媒竟来碰瓷：解放军这次演训，“是在考验美国决心”

“一些政府打电话来问：中国已深耕十年，我们咋追？”