-
刘聪:代表人工智能第三次浪潮的快速发展,这是中国人的原创
最后更新: 2024-07-26 16:16:00不久前,科大讯飞作为第一完成单位的“多语种智能语音关键技术及产业化”项目,荣获2023年度国家科学技术进步奖一等奖,这是过去十年人工智能领域首个国家科学技术进步奖一等奖,对引领我国的语音产业,支撑智能制造产业出海和升级等都有重要意义。
观察者网·心智观察所日前与科大讯飞研究院院长刘聪进行了一次交流,讨论了科大讯飞最新的语音技术进展、现有语音技术与大模型的结合、国产芯片及生态建设等问题。在对话中,刘聪提到了讯飞现有多语种智能语音技术的领先优势,目前已经应用在多个产品中,支撑中国智造出海。讯飞采用国产芯片做语音模型训练,难度很大,工作开展异常艰苦,刘聪呼吁各个企业联合建设更完善的软件生态。
项目主要完成人代表在领奖后合影
对话全文如下:
心智观察所:科大讯飞这次作为第一个完成多语种智能语音关键技术及产业化的单位,获得了国家科学技术进步奖一等奖。据闻,这是过去十年人工智能领域首个一等奖。请您总体上介绍一下此项目的基本情况,它的背景和意义。
刘聪:我们这次得奖项目的核心是智能语音技术,也是讯飞的初心。在这个项目历经的十年间,深度学习领域发展迅速,也代表着人工智能第三次浪潮的快速发展。在这一背景下,此次也是过去十年人工智能领域首个国家科学技术进步奖一等奖。
智能语音领域对我们一直很重要。过去十年里,我们一直强调语音作为人类最自然、最便捷的交流方式,是万物互联、人机交互的关键入口。
在人工智能领域里,多语种智能语音广受关注。讯飞虽然是从中文语音技术起家,但我们在过去十年里逐步拓展到更多语种以及方言领域当中,这是一个非常重要的跨越。
国家科学技术进步奖主要考量两大方面,一是提报项目需要有核心技术创新,代表中国从技术原创角度在世界上取得领先。另一方面,与其他奖项不同,国家科学技术进步奖特别强调提报项目的技术创新能否带来大规模的产业化落地。
从技术创新上来看,语音领域涉及合成、识别等技术,本项目主要针对智能语音关键技术产业化中攻克了多项技术难题,例如面向很多复杂场景时,会出现语音识别听不准、语音合成不自然、口语理解歧义等问题,以及当我们从中英文向多语种拓展、走向全球化的时候,出现数据资源稀缺的问题。在持续攻关中,我们提出了四个方面的关键技术创新:复杂语音信号解耦建模关键技术突破、多语种共享建模关键技术突破、语音语义联合建模关键技术突破、语音语义联合建模关键技术突破、国产异构硬件平台训练及推理加速关键技术突破。通过这些技术创新,我们解决了刚刚所说的技术难题,实现了在多个行业领域和智能设备上的应用落地。
总结来说,本项目的意义,第一在于开创引领了我国的语音产业,支撑智能制造产业出海和升级。
第二,通过支持多语言互通,助力民族团结,促进全球语音语言互通,协助“一带一路”建设。在这个过程中,我们很好支撑了北京冬奥会和冬残奥会、进博会、博鳌论坛等国家重大活动。
第三,我们一直强调自主可控,本项目整个构建了自主可控的多语种智能语音技术,以及全球的产业生态。
第四,我们认为技术也要有温度,所以本项目里面的相关技术也持续助力公益,关注关爱我们的弱势群体和特殊人群。
心智观察所:我稍微补充问一下,请问此项目的发起时间大概是什么时候?讯飞虽然是第一完成单位,但获奖团队不止是讯飞这一家。请问获奖团队的构成如何?
刘聪:这个项目开始时间大概是在2012年左右,至今差不多是一个十年左右的周期。
除了讯飞作为第一单位牵头,过去十年里在该项目上与我们有紧密合作的还有一些科研机构,如中国科学技术大学、清华大学,讯飞与这两所高校都有联合共建的实验室;还有产业链上的相关单位,如华为终端有限公司、中移(杭州)信息技术有限公司、讯飞医疗、讯飞智元等。
心智观察所:语音识别研究当中有一个非常有挑战的问题名叫鸡尾酒会效应,请问讯飞是怎么突破这个难题的?然后,能否用一些比较通俗的比喻来向公众解释一下其中的原理。
刘聪:鸡尾酒会是语音领域一个非常具有挑战性的难题,讨论的是在复杂环境下分辨声音种类的问题。人的听觉系统非常强大,例如你如果参加一个鸡尾酒会的话,周围非常吵闹,酒会里有非常多的噪声、谈话声、音乐声以及酒杯碰撞的声音。此时,如果你想听清楚谁在和你说话,你会将你的听力系统集中过去,在周围很吵的环境下专注于某一个特别定向的人发出的声音,这是人类所具备的一个能力。
在我们做语音识别、语音合成技术时,若要衡量语音识别系统的优劣,就要跟人的水平去做对比。在鸡尾酒会难题里,由于噪声很多,所以对机器来说进行精准的语音识别是非常难的。我从学生时代起就在研究通过单点技术来降噪,此后也尝试过通过多麦克风阵列来提升整个前端的效果。虽然做了很多的工作,但是都只是在循序渐进,很难彻底解决这样的问题。
此次获得国奖的项目中第一个创新点——复杂语音信号解耦建模关键技术突破,其中有两项技术能够比较好地解决鸡尾酒会问题。
我们在降噪里面的一个关键问题是要把语音里面的人声和非人声解构出来,这就叫解耦。对语音来说非常困难,因为语音是一个一维信号。在这个一维信号当中包含了很多的信息,如人声、噪声等。甚至如果再进一步细化,可能还有人声里面的说话人声音,及其音色、内容、性别等信息。
为了解决这个问题,我们首先基于深度学习的框架,针对性地对语音里每一个人的每一种属性做了针对性的建模。建模之后,我们就可以将刚才所说的噪声、人声的各类属性比较清楚地显示出来。通俗来讲,我们可以更加精细地把控语音里面原来混杂在一起的、各种各样的属性。此后,我们就可以更好地对噪声做分离处理,也可以知道语音里的声音是跟说话人还是跟噪声的声音更接近。
同时,如果我们用声学前端多麦克风阵列的多通道信号来采集语音的话,还可以对这个信号的时间、空间等属性进行分离。
-
本文仅代表作者个人观点。
- 责任编辑: 武守哲 
-
欧盟港停满中国车?“产能过剩”不背锅
2024-07-26 14:51 心智观察所视频 -
统一生态:鸿蒙如何踩着诺基亚和三星的“尸体”前进
2024-07-26 14:22 心智观察所视频 -
专稿|“蓝屏网灾”暴露三大悖论,“纯血鸿蒙”另辟蹊径
2024-07-25 15:01 心智观察所 -
打破认知局限!我国科学家研发出这一新型材料
2024-07-25 09:39 科技前沿 -
欧盟的反补贴调查,到底图中国啥?
2024-07-24 13:56 心智观察所视频 -
鸿蒙系统与安卓“割席”,未来胜算几何?
2024-07-24 13:41 心智观察所视频 -
“慢就是快”的启示:中国无人驾驶凭什么后来居上?
2024-07-24 09:49 心智观察所 -
“7月24日至25日地球可能出现地磁暴过程”
2024-07-23 21:54 天文 -
我国科学家在月壤中首次发现分子水
2024-07-23 18:19 嫦娥奔月 -
新一代载人火箭三级液氢液氧发动机长程高模试验成功
2024-07-23 10:17 航空航天 -
国内最大、世界第二!可用于航空航天等领域大型核心零部件的加工处理
2024-07-20 22:18 中国精造 -
科技部通报国家重点研发计划有关项目4个抄袭问题和1个评审请托问题
2024-07-20 14:52 学术造假 -
意义重大!中国电力体系的壮阔蓝图,正在逐步清晰
2024-07-19 13:44 电力改革 -
“中国没有,国际也没有,但不意味中国科学家不能做出来”
2024-07-19 08:11 科技前沿 -
我国团队研发出太阳能动力微型无人机
2024-07-19 07:22 科技前沿 -
重大突破!我国科学家发现新型高温超导体
2024-07-18 20:45 科技前沿 -
我国科学家为“尼安德特人被现代人所同化”提供有力遗传学证据
2024-07-18 15:11 科技前沿 -
Open RAN之死:华为中兴不战而胜
2024-07-18 10:27 华为 -
手机直连卫星,中国星链何时能登场?
2024-07-18 08:33 -
“设计速度400公里每小时,试验台速度达600公里每小时”
2024-07-18 07:13 中国精造
相关推荐 -
特朗普又开新战线,“只会鼓励各国像中国一样反制” 评论 69特朗普“杀得兴起”,欧洲想“刀下抢人” 评论 103“特朗普此举,是怕好莱坞没凉透啊” 评论 168“这一领域中国正不战而胜,菲律宾也无法说不” 评论 106特朗普蔫了:俄乌和平协议“也许达不成” 评论 143最新闻 Hot
-
特朗普又开新战线,“只会鼓励各国像中国一样反制”
-
“美国买家缺席,结果很意外!”
-
日本想“跪”,被警告:政府将垮台
-
特朗普:最初是我“炸”了它
-
“关税将抹掉15亿美元利润”,福特撤回了一个预期
-
县长张汉坤官宣被查,公安局长落马后“消失”4个月
-
今年第三次议息,美联储“将无视特朗普,维持不变”
-
在他嘴里,加拿大都成了“靠美国养活的社会主义政权”
-
越南总理:越美首轮谈判本周三举行,维持全年8%增长目标
-
“最美教师”邓滢,履新职
-
五一出游哪里人最多?河南接待游客6450.3万人次
-
美防长“动刀”美军高层,至少砍20%
-
以色列要全面占领加沙?“等特朗普结束中东之行……”
-
特朗普“杀得兴起”,欧洲想“刀下抢人”
-
特朗普:我老婆觉得可爱
-
多地多层级启动“高校领域突出问题系统整治”,集中在这5个方面
-