-
刘聪:代表人工智能第三次浪潮的快速发展,这是中国人的原创
最后更新: 2024-07-26 16:16:00这样,一方面实现了人声和噪声的精确分离,另一方面,多维度的语音属性结构可以进一步地把声音里的内容、韵律、音色等处理出来,如此可以进一步地去解决鸡尾酒会问题。过去几年,讯飞连续4届参与并获得国际多通道语音分离和识别权威赛事CHiME的冠军,充分证明我们的语音识别技术突破了更加复杂的场景。再进一步结合大模型,就是我们今年6月27日举行的讯飞星火V4.0发布会上呈现的极复杂语音转写技术,基于讯飞星火大模型的多模态能力,现场在噪声环境下三人同时说话,正常人耳难以听清,但我们做到了将每个人的声音较为准确分离,并且实时转写出来。
讯飞星火V4.0发布会上展示的极复杂语音转写
作为一项技术框架的创新,复杂语音信号解耦建模关键技术还可以再延伸一下,应用到语音合成上。在过去,语音合成需要一个人录制自己很多的声音语料之后才能进行合成。如果我们没有研发刚才所说的语音属性解耦技术的话,我们就很难把很多人的声音合成为一个合成声音,因为若将所有的声音全混在一起的话,可想而知会变成一个“四不像”。但是,当我们通过这项技术把每一个人的声音属性解耦出来之后,就可以把很多人的语音混在一起,训练一个合成的模型,并且能够分辨每个人的声音之间的一些共性和特性是什么。
此后,你如果希望模拟某个人的声音,只需要用这个人声音的特性以及相关的数据去建模即可。我们将这些属性进一步去建模、去控制时,如果面对一些新的发声人,可能就不再需要那么多的语音。以前语音合成需要录制一个人十个小时左右的语音,近几年只需要几分钟;目前在大模型框架之下,只需要一句话就可以了。所以,有了语音属性解耦技术,我们不仅能解决语音识别的问题,同样还可以达到对特定人更好的语音合成效果。
心智观察所:本次国奖的获奖项目为讯飞研究多年的成果,而近些年面对大模型的突然崛起,业界有声音质疑获奖项目是否被大模型的到来所颠覆。请问您会如何回应这些质疑,并请您简单讲述讯飞将如何将大模型与国奖项目相结合。
刘聪:最早的大模型技术关注的并非语音领域,包括OpenAI的ChatGPT在内的大模型大部分是文本大模型,重点在于文本。
智能语音技术更多是声学层面,但以语音识别为例,语音转变成文字的过程中牵扯到了语言模型,即文本模型的一种。以ChatGPT等为代表的文本大模型,因为它的模型更大、语料更多、长文本的建模能力更强,本身能够直接提升语音识别和语音翻译等效果。
语音合成则是反方向的,从文本到语音。当我们对文本做前端分析的时候会用到一些语言模型的技术,所以同样也会文本大模型能力的提升带来更好的效果。
其次,我们也可以进一步从文本大模型进行延伸。当有了文本大模型之后,业界开始研发一些其他种类的大模型。我们比较熟知的是从文本大模型拓展到多模态大模型,例如文生视频模型、文生图模型、多模态视觉理解模型等。当然,业界也有专门研究语音大模型的,套用文本大模型的框架来做语音大模型的框架。
虽然此次我们的国奖获奖项目并没有直接使用大模型,但是针对语音提出的一些算法创新,可以在大模型时代进一步与语音大模型进行结合。举个例子,我们刚才提到的语音属性解耦、语音信号时空分离等创新技术,本质上是对原始的语音信号进行处理之后,获得更高质量的语音编码向量。我们可以将更高质量的语音编码向量处理之后,再输入到大语言模型里,这样做会比直接把原始语音信号进行建模的效果更好,能够完成前端的预处理及预训练。
原来在多语种领域里,国际上做得最好的一般是谷歌、微软,他们有很多的多语种数据。但OpenAI在发布文本大模型ChatGPT之后,去年11月发布了Whisper v3的多语种语音大模型,效果非常惊人。讯飞则在去年12月开始,针对性结合此次国奖获奖项目的一些技术训练星火语音大模型,并于今年1月30日发布讯飞星火语音大模型。一经发布之后,在中文、英语、法语、俄语等首批37个主流语种的语音识别效果已超过了Whisper v3。
此外,我们之前也发布了超拟人语音合成,意味着我们与机器进行语音对话时,能听到像真人一样的合成声音,并且有情绪感知能力,不论在语音合成的自然度和拟人度上都有更好的表现。
今年1月30日讯飞星火语音大模型正式发布
这个项目涉及的创新方法结合场景应用,可以在通用大模型的基础之上,进一步对语音问题有更好的建模和理解,同时也降低我们对多语种海量数据的需求。本项目的技术跟大模型之间可以形成互相借鉴、互相结合的关系。
心智观察所:现在训练大模型因为各种原因,需要更多地使用国产芯片。那么使用国产芯片来开展智能语音算法模型训练和推理的时候,有哪些难点需要被克服?请问讯飞专门做了哪些优化?
刘聪:国产化也是本项目的一大特点。我们一直强调国产自主可控,一方面是重视自己能够掌握的算法创新,另一方面注重跟硬件相结合。2019年讯飞被美国列入“实体清单”时,我们就开始做储备。目前,国产芯片本身在制造等方面被“卡脖子”,在性能上有一定的差距,而且芯片的软件生态也有待发展。
对比图像,在本项目里用国产芯片做语音模型训练相对而言难度更大。说同样一个词,我可以说得慢、也可以说得快;在语音模型里做芯片的适配时,不同的语音长度可能会导致对算子的适配度不一样。即使芯片在硬件参数上水平相当,但算子适配不好的情况下去直接训练模型,很可能刚开始只有百分之二三十的效率。这样同样训练一个模型,需要的时间更长,还有些算子会不支持,实际上是很重要的一个问题。
从现在领域里比较关注的端侧适配的角度来看,一些国外的芯片在端侧使用这些模型时,量化适配做的比较好,不论什么模型在量化后损失可控。而国产化的一些端侧芯片量化之后,积累的误差损失会比较大。
所以针对性能低、适配难以及语音变长等问题,项目提出了硬件亲和的变长输入算子融合和联合统一量化感知训练技术,通过软硬件协同优化的动态张量算子自动融合方法,实现对语音等变长输入的训练性能优化达到国际主流芯片同等水平;通过多硬件联合的量化计算模拟,达到模型单次训练后可在不同硬件平台上一键部署,解决了智能语音技术硬件平台的“卡脖子”问题。现在讯飞很多的硬件产品,例如录音笔、扫描笔、办公本、学习机等都使用了国产芯片,也基本在使用上面提到的算法,证明了有效性。
值得一提的是,由于我们被列入“实体清单”,导致这些工作的开展异常艰苦。但是如果没有这些经验和积累,我们此后就无法与华为联合攻关,在去年共同建设出全国首个国产万卡算力集群“飞星一号”,并且此后基于“飞星一号”推出讯飞星火大模型V3.5、V4.0,这些星火新版本都是在全国产平台上训练出来的。据我所知,如此大规模使用国产化平台训练模型成功的只有讯飞。
去年10月24日,“飞星一号”正式发布
所以我想强调的是,此获得国奖的项目不光是解决了历史上智能语音技术相关模型的国产化问题,更是为大模型时代的国产化能力奠定坚实的基础,让大家看到在全国产算力平台上训练对标国际顶尖水平的大模型是完全可行的。
心智观察所:您刚才谈到了首个万卡的全国产算力平台“飞星一号”,我们想了解一下它目前的基本情况,请问此平台目前表现怎么样?
此外,因为您刚刚也谈到为国产硬件芯片做专门的优化非常辛苦。作为走过这条路的企业来说,你觉得国产芯片除了硬件的计算性能之外的软件生态建设方面,您还有什么呼吁和建议吗?
刘聪:从进展来说,去年底“飞星一号”整体训练性能相对于英伟达集群已提升到90%,并且之后还在不断优化提升,但是整体和国外先进水平对比还是有一定差距。由于模型与模型之间的适配逻辑不完全一样,有些不同尺寸结构的模型需要持续地适配,我们的重点在训练最主要的模型上,同时持续地训练和迭代多模态模型、语音模型等。我们也将继续与华为合作,深入完成全国产算力平台相关的工作。
我认为生态是共建的,而不是靠某一家企业的算力和人工智能。如果我们想要做到英伟达一般的生态和框架,能足以应对任意一个模型,就要对各种各样的结构、尺寸、模型创新有充足的支撑,以及在硬件的底层能力上持续进行演进,变得更加友好。
对此,我有另外一个呼吁:开放算子库。开放的方式有很多,例如从底层的算子库到上层的框架,以及配合一些社区的内容。目前,讯飞和华为共建的算子库大部分都已经共享到库中,未来如果有更多能够比较开放地使用算子库的企业,他们自己的很多创新算法就可以用这些算子去验证,并且会不断地去发现问题、闭环问题,这对于我们行业很关键,核心还是大家要去用。
心智观察所:据了解,如奇瑞、一汽等车企也做过一些比较,认为讯飞的多语种智能语音技术效果全面领先于竞品赛轮思。华为随后也做过一个测评,称讯飞领先于谷歌。请问在这些评比中具体比较的是一些什么样的项目?
刘聪:一般评测指标有两种,第一种为技术指标。技术指标一般需要我们要通过国际上权威的评测来做,可以理解成纯算法本身的比拼。例如我们在2021年国际低资源多语种语音识别挑战赛OpenASR,获得了15个语种22项第一。故此,这种指标是一个较为学术性的指标。
你刚刚提到的这些测试主要是站在产品的层面来做评估,考验端到端效果。举个例子,在奇瑞、一汽等车企的评测里,它评估的不只是一个单点的语音识别指标,而是考虑整个汽车语音交互的流畅度、任务的信息传达准确性、功能多样性、唤醒成功率等各种各样的维度。
-
本文仅代表作者个人观点。
- 责任编辑: 武守哲
-
欧盟港停满中国车?“产能过剩”不背锅
2024-07-26 14:51 心智观察所视频 -
统一生态:鸿蒙如何踩着诺基亚和三星的“尸体”前进
2024-07-26 14:22 心智观察所视频 -
专稿|“蓝屏网灾”暴露三大悖论,“纯血鸿蒙”另辟蹊径
2024-07-25 15:01 心智观察所 -
打破认知局限!我国科学家研发出这一新型材料
2024-07-25 09:39 科技前沿 -
欧盟的反补贴调查,到底图中国啥?
2024-07-24 13:56 心智观察所视频 -
鸿蒙系统与安卓“割席”,未来胜算几何?
2024-07-24 13:41 心智观察所视频 -
“慢就是快”的启示:中国无人驾驶凭什么后来居上?
2024-07-24 09:49 心智观察所 -
“7月24日至25日地球可能出现地磁暴过程”
2024-07-23 21:54 天文 -
我国科学家在月壤中首次发现分子水
2024-07-23 18:19 嫦娥奔月 -
新一代载人火箭三级液氢液氧发动机长程高模试验成功
2024-07-23 10:17 航空航天 -
国内最大、世界第二!可用于航空航天等领域大型核心零部件的加工处理
2024-07-20 22:18 中国精造 -
科技部通报国家重点研发计划有关项目4个抄袭问题和1个评审请托问题
2024-07-20 14:52 学术造假 -
意义重大!中国电力体系的壮阔蓝图,正在逐步清晰
2024-07-19 13:44 电力改革 -
“中国没有,国际也没有,但不意味中国科学家不能做出来”
2024-07-19 08:11 科技前沿 -
我国团队研发出太阳能动力微型无人机
2024-07-19 07:22 科技前沿 -
重大突破!我国科学家发现新型高温超导体
2024-07-18 20:45 科技前沿 -
我国科学家为“尼安德特人被现代人所同化”提供有力遗传学证据
2024-07-18 15:11 科技前沿 -
Open RAN之死:华为中兴不战而胜
2024-07-18 10:27 华为 -
手机直连卫星,中国星链何时能登场?
2024-07-18 08:33 -
“设计速度400公里每小时,试验台速度达600公里每小时”
2024-07-18 07:13 中国精造
相关推荐 -
“你把美国当盟友,特朗普拿你当对头” 评论 14印尼总统:中国始终致力于反帝反殖,向中国致敬 评论 134哈佛荣誉校长竟称:这是给中国的“大礼” 评论 193公募改革“触及灵魂”,中国正破解金融的世界性难题 评论 115特朗普为何突然对欧盟发难?“嫌对华施压还不够” 评论 116最新闻 Hot
-
哈佛荣誉校长竟称:这是给中国的“大礼”
-
加沙医生前线救死扶伤,家中十个孩子九个被以军炸死
-
敏感海域,日巡逻艇突然发射实弹,打完才想起没警示
-
特朗普为何突然对欧盟发难?“嫌对华施压还不够”
-
特朗普自夸:我“重建”美军
-
俄军称又控制三个居民点,乌军否认
-
用没用翻译?俄乌突然吵起来了
-
“越谈越僵!最急着签的都杠起来了”
-
“推倒重来要几十年!没有中国我们根本无法生产”
-
美欧这事儿闹的,还扯上中国…
-
印军称击毙一名巴基斯坦越境者,巴官员称印方“含糊其辞”
-
特朗普胡诌:有学生2+2都不会,怎么进的哈佛?
-
内蒙古一地突降大雪,多匹马被冻死
-
美议员跑加拿大求“复合”:咱有共同“敌人”,中国啊
-
“美国给中国送大礼,共和党人这下该解释麻了”
-
特朗普威胁三星:25%
-