-
专访中科院自动化所所长徐波:构建紫东太初——全球首个三模态大模型,“类人智能”的大门正在打开
最后更新: 2021-07-20 14:38:30观察者网:这个多模态大模型的技术水平,跟国外同行相比怎么样?
徐波: “紫东太初”是全球首个三模态大模型。目前,全世界研究单模态大模型(图像、文本)的人比较多,研究语音大模型的相对少一些。我们是少有的同时具备图、文、音研究储备和基础的研究机构。这次自动化研究所系统整理收集了积累多年的多模态数据库,并把图、文、音三个模态统一起来,在一个共同的语义空间去做相互的转换和统一表述,这在全球是首次。通过巧妙的构建一个多模态大模型,我们的图像技术、语音技术和文本技术都超越了现有最好水平。过去业界习惯用有监督的学习,而我们的技术对有标注数据的依赖性较小,改变了人工智能训练需要标注好的大数据的固有模式。
首先业界领先性能的中文预训练模型、语音预训练模型、视觉预训练模型是我们三模态模型的基础。比如,视觉的预训练模型,首次实现超越有监督学习的性能,速度比其他的方法提高8倍,在语义分割的结果上,也超越了有监督学习的水平。在中文预训练模型里面提出来任务感知和推理增强的模型,性能相比比GPT-3明显提升。语音预训练模型,针对语音领域语种多样、标注成本高的问题,实现了基于语音预训练的多语言、多任务、低资源关键技术的突破,使我们用很少的有标注数据就可以实现语音识别的性能大幅度提升。
然后我们在统一的语义空间网络表达上实现了模态之间的高效协同和相互转换,在多任务上取得了更卓越的性能。在跨模态检索和图文语义转换方面,都比两个模态具有更丰富的表达跟生成能力。语音加入后,使得我们的大模型可以跟人类做自然流畅的交互。这意味着,我们人工智能技术在共性的语义空间表征方面取得了重要进展。
观察者网:AI应用场景的碎片化需求,正在成为AI算法落地面临的最大挑战。而三模态大模型能够实现多模态对话,视频播报,以音生图,以图生音,非常有意思,未来是否有可能所有问题都会通过统一的大模型来解决?
徐波:我觉得非常有可能。我们人类主要有两种能力,一种是与生俱来的能力,到了一定的年龄,通过基本的学习就能自然的学会说话、走路。另外一种是专业技能,如果要学会弹钢琴、水墨画等,仍然需要长时间的专业训练才能实现,因为这改变了人的特定知识结构。
多模态大模型为通用人工智能的研究奠定了非常好的基座。人类基本的知识、常识,看到的一些场景、物体,以及从物理世界看到的很多东西,都可以隐藏在这个大模型里面。比如要做语音识别,现在用很小的数据量就可以了,甚至可以逐渐做到不需要有监督的数据学习。
预训练模型作为基座模型虽然不是万能的,但是人工智能的研究范式和产业范式也会出现一些变化。比如说,现在产业都在讲算法开源,但算法的维护成本很高,尤其是现在人工智能的人才很稀缺,未来人工智能领域开放的可能是模型,客户获得大模型的接口再稍微加一点数据就能解决问题,即“大模型+小数据”,这是我们未来希望看到的大模型对产业带来的赋能。这个大模型技术从学术成果向产业转化可能还需要一个过程,但我认为不会太久,未来2-4年之内这些新技术都会逐渐得到应用。
观察者网:能不能具体讲一下紫东太初这个多模态大模型以音声图、以图生音的应用案例?
徐波:以图生音为例。可以不经过文本,直接在一个共通语义空间做转换,就是语义到语音的直接合成。以音生图,它不是先识别语音,再做文本的检索,而是直接在一个语义空间里面把这个声音转换成图像。所以我们为什么说这个是通用人工智能路径的探索,就是通过图文音三个模态固化出一个人类非常模糊但是非常有用,只是不知道人类大脑是怎么表达的一个语义空间的表征。
生成语音:一架大型飞机在天空中飞翔
输入语音:一个人在滑雪板上翻转在空中
除此之外,我们还可以给出一个多模态大模型的互动演示,涉及到很多的语音识别,语音合成,包括对图像的描述,中文的续写等等,通过语义空间直接的转换来完成。
这一系列的展示,是非常类人的多模态交互。它可以任意输入语音、图像或者文字,去输出语音,图像和文字的任意一种,真正实现三个模态之间的关联跟协同。它们中间就是我们讲的“统一的语义空间”。
这里主要表达三个观点,一是大数据+大模型+多模态,将改变当前单一模型与单一任务人工智能的研发模式,多模态大模型将成为不同领域的共性平台技术。其次,在目前的研究当中,有一种惯性思维是做人工智能都要用大数据,而当知识与数据混合驱动,增强模型的可信、可理解能力后,我相信随着这些技术的发展,人工智能学习对有标注的数据的依赖性会越来越小。
此外,国产化通用人工智能具有很高的技术门槛,需要大量的资金与数据的支撑,将使得人工智能的研究规则发生重大变革,对我国实现人工智能领域科技创新,占领核心技术高地具有重要战略意义。以图生音,以音生图,效果甚至出乎我们自己的想象,这也带给我们一项启发,让我们对未来的人工智能又增加的无穷的想象力。所以,多模态大模型人工智能值得我们进一步去探索,值得我们进一步探索更巧结构、更大规模、更强理解能力的模型以及相应的评估标准,也值得我们把这样的技术跟产业需求更好的结合起来。
再举一些生活化的例子。比如说,利用大模型可以实现欧洲杯转播的人工智能自动解说;在影视拍摄领域,可以根据剧本的文字自动生成画面和场景,供导演再加工;在教育领域可以根据语义内涵,自动生成画面和声音、甚至生成全新的音乐(而非在既有乐库中选取),类似实现妈妈给孩子讲故事等功能,让人工智能具备初步的想象力和艺术创作力。其实这与人类大脑工作机制是比较类似的。
-
本文仅代表作者个人观点。
- 责任编辑: 吕栋 
-
这次冬奥会,裁判可能“不是人类”
2021-07-20 13:41 世界人工智能大会 -
中芯国际发35亿股票激励,四大高管浮盈超1200万
2021-07-20 13:29 上市公司 -
农业农村部:生猪高利润阶段已经结束,不要再赌市场
2021-07-20 11:36 -
养猪龙头企业半年预亏30亿
2021-07-20 08:06 聚焦三农 -
美媒:随着中国新规,2万亿美元赴美上市大潮宣告结束
2021-07-19 16:33 上市公司 -
发改委:大宗商品价格总体回落,比年内高点下跌3%-14%
2021-07-19 16:01 金融圈 -
“继续限制ASML与中国大陆合作,是美国安顾问首要任务”
2021-07-19 14:23 上市公司 -
证监会从严从快从重查办16起重大典型案件,点名这些违规行为
2021-07-18 09:37 -
国家统计局相关负责人:上半年经济稳中向好 动能不断增强
2021-07-17 07:37 中国经济 -
长江存储:不会受紫光集团破产重整司法程序的直接影响
2021-07-16 16:10 上市公司 -
央行:商业机构推出全球性“稳定币”将带来诸多风险和挑战
2021-07-16 15:59 -
全国碳排放权交易在上海、武汉上线
2021-07-16 09:58 金融圈 -
证监会发布《证券期货违法行为行政处罚办法》
2021-07-16 07:32 中国经济 -
全国碳排放权交易明天开市
2021-07-15 21:06 政策风向标 -
智能手机业务增长近4倍,紫光展锐称5G时代必须回到中国
2021-07-15 17:03 科技前沿 -
6月新房价格环比涨幅回落,外媒:楼市政策效果显现
2021-07-15 16:32 中国房市 -
商务部:将按照必要合理的原则审查影响国家安全的外商投资
2021-07-15 15:48 政策风向标 -
全面降准是为应对经济下行?国家统计局回应
2021-07-15 14:02 中国经济 -
李克强:此次审计发现违规倒卖大宗商品等问题线索,情节十分恶劣
2021-07-15 13:44 中国经济 -
新冠检测收入下滑,华大基因二季度净利润骤降超50%
2021-07-15 11:38 上市公司
相关推荐 -
“断供”阴影下,国产操作系统的破局时刻 评论 83“印巴冲突是叙事之战,中国装备重要性凸显” 评论 181特朗普故弄玄虚称“和某大国达成协议”,就这? 评论 164巴外长证实:歼-10击落印军“阵风” 评论 716美财长:这些婴童用品从中国进口,考虑降税 评论 159最新闻 Hot
-
美国官员:歼-10击落至少两架印度军机,包括阵风
-
印度称军事基地遭巴基斯坦袭击,巴方否认
-
特朗普:可能找中国帮忙
-
微软总裁瞎操心:不让员工用DeepSeek
-
特朗普:美国与乌克兰达成稀土协议
-
特朗普祝贺:历史性时刻,美国的莫大荣耀
-
100多架飞机大战后,印巴局势怎么走?
-
美国又炒作“中国在古巴进行间谍活动”,我大使驳斥
-
美英谈成了,“英国让步”
-
冲突愈演愈烈,莫迪首发声
-
“美国在欧洲的广泛军事存在并不是必然的"
-
印度两座水电站已重新开闸
-
“印巴冲突是叙事之战,中国装备重要性凸显”
-
夸大对华关税效果,她被打假了
-
突发!巴称击毙约50名印士兵,印称摧毁巴第二大城市防空系统
-
弹射座椅大厂泄露了印巴空战战损“天机”?
-