-
专访中科院自动化所所长徐波:构建紫东太初——全球首个三模态大模型,类人智能的大门正在打开
最后更新: 2021-07-20 11:17:35导读人的大脑中,语义是最神秘的。
在神经科学实验中,当看一张猴子照片的时候,大脑中视觉关联区域神经活动会更加活跃;听到声音,声音关联区域神经活动会更加活跃。但是当大脑在想象一只猴子的时候,大脑更大片区域都处于激活状态。
语义是人工智能技术最难表征和最难处理的。其实,它就是人的多个感知模态相互融合、相互关联、相互协同、相互激活的结果。
目前,这种多模态互动的认知过程,正在被人工智能学习。
7月9日,2021世界人工智能大会(WAIC)昇腾人工智能高峰论坛上,中国科学院自动化研究所所长徐波正式报告了跨模态通用人工智能“紫东太初”平台。
该平台以全球首个图、文、音(视觉、文本、语音)三模态预训练模型为核心,并基于国产化自主AI基础软硬件平台(昇腾)开发实现,向更加通用型人工智能跨出一步。
在会后,观察者网对徐波所长进行专访,就人工智能发展的现实意义、多模态大模型的发展现状、中外人工智能的技术对比、三模态大模型的应用案例和未来展望、通用人工智能的路径探索等话题展开讨论。
以下是专访实录:
观察者网:我们看到,中国目前在人工智能技术研发投入上可谓是不遗余力,作为人工智能行业专家,您认为持续探索人工智能技术创新之路,对整个产业和社会发展的意义是什么?
徐波:人工智能在本质上是一种赋能技术。随着社会的持续发展和进步,人工智能作为社会经济生活的“发动机”,无处不在的推动着多个行业的智能化发展。人工智能在不断与行业进行融合创新的同时,会出现多种形态的变化,呈现出百花齐放的现象。
人工智能作为新一轮技术革命和产业变革的重要驱动力,已经改变很多现有的流程、理念、生产方式、组织形式,将进一步解放和发展社会生产力,深度改变人们的思想观念。当前,人工智能正在全方位赋能商业、教育、医疗、制造、交通和社会治理,成为不可或缺的发展引擎。但人工智能发展创新绝非一帆风顺,短时间内,相关技术还将经历一个艰难爬坡、临界点突破、再遇到新的瓶颈这样螺旋式的发展上升过程。
观察者网:自从国外OpenAI公司的GPT3、华为公司的盘古等人工智能模型出现以来,无监督学习迅速发展,目前预训练大模型已经发展到了什么阶段?
徐波:图灵奖获得者Yann Lecun曾经说过,如果智能是一块蛋糕,那么蛋糕的主体是无监督学习,蛋糕上的糖衣是监督学习,蛋糕上的樱桃是强化学习。人类对世界的理解主要来自于大量未标记的信息。
“蛋糕主体”指的是无监督学习,现在很多人工智能碰到的落地上的可信和鲁棒性难题,其本质问题是现有AI缺乏语义级的认知。认知如同浮在海平面上的冰山。自然语言是冰山浮出水面的部分,而理解自然语言的基础是大量的人类常识、背景知识、领域知识等世界知识,这是冰山水面以下看不到的部分。把这些合起来统称为“语义空间”。现有的AI系统很难把这些语义空间加以全面准确的表达。
例如,“张三吃大碗”、“张三吃食堂”、“张三吃面条”这三句话。“张三吃大碗”并不是说张三把大碗吃掉,“张三吃食堂”也不是要把食堂吃掉,这种表述背后的逻辑可能是食堂是吃饭的地方,很多人都在食堂吃饭,张三家里可能没做饭,所以在食堂吃饭。对人工智能来说,必须有这些相关的背景知识,才能理解“张三吃食堂”这句对人来讲很容易理解的话。
人工智能需要学习很多背景知识才能理解自然语言。这就是“认知冰山”问题,冰山海平面之下才是获得认知的关键。有的人工智能专家把这些大量的背景知识称作人工智能的“暗物质”。怎么把这些“暗物质”挖掘出来放在一个系统里?无监督学习是一条路径。
这些“暗物质”隐含存在于我们的图片、日常对话和海量文本中。但是,目前的预训练大多数还是单模态。“百闻不如一见”,可能很复杂的语义表述只需要看一张图片就能理解。
同时,人类的声音还蕴藏着情绪和感情,只有准确捕获这些细节信息,才有可能懂得语言背后真正的含义,而不仅仅是文字表面的意思。那么,我们如何才能同时有效把声音、图片和文字这些信息都整合起来呢?
这次,我们在武汉人工智能计算中心算力支持下研发的全球首个三模态大模型“紫东太初”,在实现图、文、音的统一表达方面取得重要进展。已有多模态预训练模型通常仅考虑两个模态,如图像和文本,或者视频和文本,不但忽视了周围环境中普遍存在的语音信息,并且模型不好兼具理解与生成能力,难以在生成任务与理解类任务中同时取得良好表现。
我们首次将语音信息引入,并通过一个统一语义空间网络表达生成三模态模型,可以把刚才提到的“认知冰山”或“暗物质”的庞大语义空间学习出来,能更加接近人类真正的感情和思考。特别地,由于侧重交互功能的语音的加入,使我们的大模型一下子变“活”了,使人工智能迈向更高层次的通用型人工智能方向发展。
“紫东太初”三模态训练模型采用了多层次、多任务、自监督、预训练的学习方式,论文已经公开发表。最重要的是提出来三模态数据的语义统一表达,可同时支持三种或者任两种模态的若干数据预训练。这个模型不仅可以实现跨模态理解,还能实现跨模态生成,做到理解和生成两个最重要的认知能力的平衡,首次实现以图生音,以音来生图的功能。
三模态大模型可能把更多人类许多与生俱来的东西学习出来,把“认知冰山”水面以下的东西能进行挖掘和表达。另外,单模态预训练模型无疑越大越好,但三模态模型的重点更在于探索如何让它更“巧”。三模态大模型要做好还要下很多功夫,但我们已经在正确的方向上迈出了重要的一步。
观察者网:多模态大模型“紫东太初”名称的内涵,是不是包涵了某种开天辟地的意义?
徐波:可以这么理解,就是相当于人工智能走向类人智能的一个混沌初开之际,也是感知智能走向通用智能重要的第一步。
一个比较有意思的话题是,人工智能领域之外的人,比如哲学、科幻领域,特别喜欢讨论人工智能的一些终极问题,例如机器人可能统治人类,同时涉及一些更高层面的伦理问题。但绝大多数人工智能领域的科学家非常清楚地认知到现有人工智能距离真正的人类智能相差甚远。
在成功研发“紫东太初”三模态模型后,我们似乎感受到比现有人工智能更为强大的通用型人工智能大门正在打开。有时候,我们甚至在思考怎么让人工智能依附一个好的躯体,更好地感知到自然和社会环境中的信息,把类似情绪和情感的信息做进一步的处理,AI将会有更大的发展和比较好的灵活性。这种门槛一旦突破,人工智能的发展很可能会出现指数型的增长。这是一个即将呈现爆发式增长的领域。
观察者网:这个多模态大模型的技术水平,跟国外同行相比怎么样?
徐波: “紫东太初”是全球首个三模态大模型。目前,全世界研究单模态大模型(图像、文本)的人比较多,研究语音大模型的相对少一些。我们是少有的同时具备图、文、音研究储备和基础的研究机构。这次自动化研究所系统整理收集了积累多年的多模态数据库,并把图、文、音三个模态统一起来,在一个共同的语义空间去做相互的转换和统一表述,这在全球是首次。
通过巧妙地构建一个多模态大模型,我们的图像技术、语音技术和文本技术都超越了现有最好水平。过去业界习惯用有监督的学习,而我们的技术对有标注数据的依赖性较小,改变了人工智能训练需要标注好的大数据的固有模式。
首先,性能业界领先的中文预训练模型、语音预训练模型、视觉预训练模型是我们三模态模型的基础。比如,视觉的预训练模型,首次实现超越有监督学习的性能,速度比其他的方法提高8倍,在语义分割的结果上,也超越了有监督学习的水平。在中文预训练模型里面提出来任务感知和推理增强的模型,性能相比比GPT-3明显提升。语音预训练模型,针对语音领域语种多样、标注成本高的问题,实现了基于语音预训练的多语言、多任务、低资源关键技术的突破,使我们用很少的有标注数据就可以实现语音识别的性能大幅度提升。
然后,我们在统一的语义空间网络表达上实现了模态之间的高效协同和相互转换,在多任务上取得了更卓越的性能。在跨模态检索和图文语义转换方面,都比两个模态具有更丰富的表达跟生成能力。语音加速加入后,使得我们的大模型可以跟人类做自然流畅的交互。这意味着,我们人工智能技术在共性的语义空间表征方面取得了重要进展。
观察者网:AI应用场景的碎片化需求,正在成为AI算法落地面临的最大挑战。而三模态大模型能够实现多模态对话,视频播报,以音生图,以图生音,非常有意思,未来是否有可能所有问题都会通过统一的大模型来解决?
徐波:我觉得非常有可能。我们人类主要有两种能力,一种是与生俱来的能力,到了一定的年龄,通过基本的学习就能自然地学会说话、走路。另外一种是专业技能,如果要学会弹钢琴、水墨画等,仍然需要长时间的专业训练才能实现,因为这改变了人的特定知识结构。
多模态大模型为通用人工智能的研究奠定了非常好的基座。人类基本的知识、常识,看到的一些场景、物体,以及从物理世界看到的很多东西,都可以隐藏在这个大模型里面。比如要做语音识别,现在用很小的数据量可以了,甚至可以逐渐做到不需要有监督的数据学习。
预训练模型作为基座模型虽然不是万能的,但是人工智能的研究范式和产业范式也会出现一些变化。比如说,现在产业都在讲算法开源,但算法的维护成本很高,尤其是现在人工智能的人才很稀缺,未来人工智能领域开放的可能是模型,客户获得大模型的接口再稍微加一点数据就能解决问题,即“大模型+小数据”,这是我们未来希望看到的大模型对产业带来的赋能。
这个大模型技术从学术成果向产业转化可能还需要一个过程,但我认为不会太久,未来2-4年之内这些新技术都会逐渐得到应用。
- 责任编辑: 张建鑫 
-
祥生、蓝光、中骏、星河、宋都入股,五家房企联手到底为什么?
2021-07-20 11:11 中国房市 -
大公司早报 | 天鹅到家暂停赴美IPO 喜茶回应收购乐乐茶
2021-07-20 09:09 大公司 -
传保利与平安洽谈收购北大资源,标的公司2020年预亏近17亿元
2021-07-19 17:23 中国房市 -
郭广昌继续重仓海南,400亿欲将海航收入囊中?
2021-07-19 17:21 中国房市 -
Steam掌机公布,手持游戏电脑的春天要来了?
2021-07-19 17:18 文化 -
侯毅官宣成立盒马NB事业部,盒马邻里为核心产品
2021-07-19 15:30 大公司 -
辛巴燕窝门事件终裁:辛巴胜诉
2021-07-19 14:01 消费 -
躺在小米渠道上的趣睡科技能一直赢下去吗?
2021-07-19 12:54 上市公司 -
投融资周报 | 兴盛优选将完成3亿美元融资 喜茶交割5亿美元融资
2021-07-19 11:08 大公司 -
大公司早报 | 美团上线打车小程序 滴滴称停止服务为谣言
2021-07-19 10:10 大公司 -
vivo S10系列发布 引领“自然美”自拍潮流
2021-07-17 12:03 大公司 -
海南楼事:除了旅游就是买房?业内回应不怕跌价就怕跳涨
2021-07-16 14:37 中国房市 -
海南楼事:投资客疯抢空置率奇高,有项目淡季入住率仅10%
2021-07-16 14:35 中国房市 -
架构调整后俞永福首亮相,高德“聚合”属性凸显
2021-07-16 11:11 -
大公司早报 | 小米销量超苹果首居第二 B站回应赠送大会员后自动续费
2021-07-16 09:03 大公司 -
不止电商、教育,野心勃勃的字节又看上了外卖
2021-07-15 23:49 商业 -
腾讯的“垄断”:资本留不住用户,也就救不了游戏
2021-07-15 17:06 反垄断 -
大公司早报 | 字节跳动内测外卖业务 美团优选取消大小周
2021-07-15 09:06 大公司 -
外媒:阿里和腾讯考虑互相开放生态系统
2021-07-14 20:43 大公司 -
一季度“爆雷”毛利承压,顺丰上半年盈利下滑八成
2021-07-14 15:23 大公司
相关推荐 -
“我们高度依赖中国,特朗普这么干,打残自己” 评论 49美国商会喊话特朗普:赶紧减免关税,经济撑不住了 评论 82商务部:美方主动向中方传递信息,中方正评估 评论 339“白宫在努力控制叙事,但美国消费者很清楚” 评论 125最新闻 Hot
-
美国商会喊话特朗普:赶紧减免关税,经济撑不住了
-
“我们高度依赖中国,特朗普这么干,打残自己”
-
马斯克自比佛陀:佛陀去世后,佛教不是更兴盛了吗?
-
商务部:美方主动向中方传递信息,中方正评估
-
三个月了,日本被困下水道的卡车司机终于找到
-
中国批准了,澳大利亚业界“非常振奋”
-
“美国现在是不撞南墙不回头,不见棺材不落泪”
-
“群聊泄密门”始作俑者被解雇,原来他早就被…
-
麦当劳“叫苦”:经济难以预测,美国人不敢花钱了
-
“英伟达焦虑:若DeepSeek用中企芯片…”
-
瑞安航空:若涨价,退了波音考虑C919
-
“白宫在努力控制叙事,但美国消费者很清楚”
-
美财长:该降息了
-
“我们会考虑恢复斯大林格勒的名称,但最终要由市民决定”
-
“经济上没好消息,但他是靠这个当选的,问题就来了”
-
义乌玩具商对特朗普翻白眼:我们不在乎!
-