-
小米大模型突然登顶一项测试,用了DeepSeek的方法
-
张广凯13764468101
3月17日,小米官方透露,其大模型团队在音频推理测试集MMAU榜单登顶,并强调“DeepSeek-R1的发布为我们在该项任务上的研究带来了启发”。
MMAU是一个侧重考察音频大模型理解和复杂推理能力的测试集,包含27种不同的任务,一万条涵盖语音、环境声和音乐的音频样本。
例如,其中一个任务是要求从一段10多秒的语音中,数出包含至少一个重读音素的单词数量;另一个任务是根据一段美剧《生活大爆炸》中的对话,解释其中一句话为什么是讽刺。
这是一个难度较高的测试集,人类专家的测试准确率为82.23%。而目前榜单上最强的大模型是谷歌Gemini 2.0 Flash,准确率55.6%。
小米大模型则达到了64.5%的准确率,较其它大模型有显著提升。其参数量更是只有7B,是一个非常轻量化的模型。
不过,小米的大模型倒也不是完全自己研发,而是基于开源的阿里通义大模型Qwen2-Audio-7B,并使用清华大学发布的 AVQA 数据集进行微调。Qwen2-Audio-7B自身在这个测试集上的得分是49.2%。
其实,相比于模型本身,小米这一成果的更大意义在于,证明了在音频模型领域,DeepSeek-R1的Group Relative Policy Optimization (GRPO) 方法,同样比监督微调(SFT)效果要好得多。
小米方面专门用通俗的语言解释了这个方法:
“打个比方来说,离线微调方法,如 SFT,有点像背题库,你只能根据已有的题目和答案训练,但遇到新题可能不会做;而强化学习方法,如 GRPO,像老师在要求你多想几个答案,然后老师告诉你哪一个答案好,让你主动思考,激发出自身的能力,而不是被“填鸭式”教学。当然,如果训练量足够,比如有学生愿意花很多年的时间来死记硬背题库,也许最终也能达到不错的效果,但效率太低,浪费太多时间。而主动思考,更容易快速地达到举一反三的效果。强化学习的实时反馈可能会帮助模型更快锁定高质量答案的分布区域,而离线方法需要遍历整个可能性空间,效率要低得多。”
此外,小米团队还发现,如果让模型像DeepSeek一样,给出显性的推理过程,最后的准确率反而下降到61.1%,也就是说,显式的思维链结果输出可能并不利于模型的训练。这是相较于DeepSeek的一个新发现。
最后,小米方面也指出,尽管当前准确率已突破 64%,但距离人类专家 82% 的水平仍有差距,音频大模型仍然远远落后于人类听觉语言推理。
本文系观察者网独家稿件,未经授权,不得转载。
- 责任编辑: 张广凯
-
人工韧带有望打破国外垄断,投资人为何等不及国产替代?
2025-03-17 17:24 观网财经-健康 -
麒麟X90处理器曝光,华为首款PC级CPU来了?
2025-03-17 16:46 观网财经-科创 -
3GPP换届,华为、vivo、中国移动、中国电信获四个主席席位
2025-03-17 15:33 观网财经-科创 -
宁德时代正开发第二代钠电池:性能已与磷酸铁锂电池接近
2025-03-17 13:50 大公司 -
韩国巨头减产、美光停电,闪存芯片要涨价了
2025-03-17 13:14 观网财经-科创 -
宝马宣布与华为达成合作,未来将深度集成华为HiCar
2025-03-17 12:31 华为 -
1688全面松绑“仅退款”
2025-03-17 11:52 观网财经-互联网 -
2月南京新房价格环比涨幅又跑赢全国,各地房价同比降幅继续收窄
2025-03-17 11:17 观网财经-房产 -
京东外卖入驻商家已破30万家,覆盖全国126城
2025-03-17 10:59 观网财经-互联网 -
3000亿国补扩容,滴灌到县城
2025-03-17 09:57 观网财经-消费 -
华为申请MateRobot商标
2025-03-17 09:50 观网财经-科创 -
苹果计划在AirPods上配备实时对话翻译功能
2025-03-16 20:57 观网财经-科创 -
母猪产后护理难?中国AI已经开始“下乡”了
2025-03-16 12:03 观网财经-科创 -
年化利率高达20倍!借贷宝被暂停运营
2025-03-16 09:38 315维权 -
土巴兔:未与火眼云达成实质性合作
2025-03-16 09:16 315维权 -
即将连亏3年,360用户体验何时能提升?
2025-03-15 22:51 观网财经-互联网 -
市场监管总局发声
2025-03-15 22:21 -
知情人士:偷个人信息的获客公司每日处理100亿条数据
2025-03-15 22:21 315维权 -
最高年化利率近6000%!在评论区一不小心借到“高利贷”...
2025-03-15 21:39 315维权 -
啄木鸟回应:确认属实将会对师傅进行严格处罚
2025-03-15 21:20 315维权
相关推荐 -
-
33年来首次调动!特朗普支持逮捕加州州长 评论 11炮灰还是既得利益者?他俩的决裂警示硅谷精英 评论 59洛杉矶抗议是如何被点燃的? 评论 84“美国已非首选,中国才是未来” 评论 234“不止有稀土,特朗普才发现:天平已向中国倾斜” 评论 205275岁老人独自去游乐园被拒入园,游乐园设年龄“上限”门槛合理吗?评论 173 赞 33作为0距离观察艾滋病患者的人,我想说多数人对艾滋病群体的行为逻辑缺乏直观认识评论 121 赞 144如何看待79岁的特朗普,在6月8日这天上空军一号的时候,差点摔了一跤?评论 117 赞 65如何看待北大辛德勇教授,怀疑“采药昆仑”石刻乃今人伪刻?评论 111 赞 87女子花1.3万买乡下小院,专家称这更能够释放人们的情绪价值,你怎么看?评论 67 赞 18我还是要劝年轻人要有信心评论 64 赞 69李书福称“当今世界汽车工业严重产能过剩”,你怎么看?评论 63 赞 110宁夏一地招社区工作者零彩礼可加分,有网友认为不公平,你怎么看?评论 60 赞 4最新闻 Hot
-
炮灰还是既得利益者?他俩的决裂警示硅谷精英
-
“特朗普是个大骗子!通话时还好好的,转头就调国民警卫队”
-
俄方称大规模报复打击乌军一机场
-
波兰候任总统:考虑到本国利益,反对乌克兰加入欧盟
-
网红“无语哥”被美移民局逮捕,“自愿离美”
-
洛杉矶骚乱持续,中澳英等多国记者被橡皮子弹击中
-
洛杉矶抗议是如何被点燃的?
-
“美国已非首选,中国才是未来”
-
首次!巴西最早今年将发熊猫债
-
“世界变了,澳大利亚要减少对美依赖”
-
马斯克示好特朗普:这样子不OK
-
“不止有稀土,特朗普才发现:天平已向中国倾斜”
-
爱会转移…“美国把给我们的导弹送去了中东”
-
白宫高官威胁:格抓勿论,纽森也不例外
-
加州州长怒斥:特朗普,撤兵!
-
“DOGE员工担心,兔死狗烹轮到自己了”
-