专访中科院自动化所所长徐波：构建紫东太初——全球首个三模态大模型，“类人智能”的大门正在打开

APP下载

扫一扫

下载观察者APP

专访中科院自动化所所长徐波：构建紫东太初——全球首个三模态大模型，“类人智能”的大门正在打开
- 徐波中科院自动化研究所所长
分享到：

2021-07-20 08:30:05 字号：A- A A+ 来源：观察者网

最后更新: 2021-07-20 14:38:30

观察者网：这个多模态大模型的技术水平，跟国外同行相比怎么样？

徐波： “紫东太初”是全球首个三模态大模型。目前，全世界研究单模态大模型（图像、文本）的人比较多，研究语音大模型的相对少一些。我们是少有的同时具备图、文、音研究储备和基础的研究机构。这次自动化研究所系统整理收集了积累多年的多模态数据库，并把图、文、音三个模态统一起来，在一个共同的语义空间去做相互的转换和统一表述，这在全球是首次。通过巧妙的构建一个多模态大模型，我们的图像技术、语音技术和文本技术都超越了现有最好水平。过去业界习惯用有监督的学习，而我们的技术对有标注数据的依赖性较小，改变了人工智能训练需要标注好的大数据的固有模式。

首先业界领先性能的中文预训练模型、语音预训练模型、视觉预训练模型是我们三模态模型的基础。比如，视觉的预训练模型，首次实现超越有监督学习的性能，速度比其他的方法提高8倍，在语义分割的结果上，也超越了有监督学习的水平。在中文预训练模型里面提出来任务感知和推理增强的模型，性能相比比GPT-3明显提升。语音预训练模型，针对语音领域语种多样、标注成本高的问题，实现了基于语音预训练的多语言、多任务、低资源关键技术的突破，使我们用很少的有标注数据就可以实现语音识别的性能大幅度提升。

然后我们在统一的语义空间网络表达上实现了模态之间的高效协同和相互转换，在多任务上取得了更卓越的性能。在跨模态检索和图文语义转换方面，都比两个模态具有更丰富的表达跟生成能力。语音加入后，使得我们的大模型可以跟人类做自然流畅的交互。这意味着，我们人工智能技术在共性的语义空间表征方面取得了重要进展。

观察者网：AI应用场景的碎片化需求，正在成为AI算法落地面临的最大挑战。而三模态大模型能够实现多模态对话，视频播报，以音生图，以图生音，非常有意思，未来是否有可能所有问题都会通过统一的大模型来解决？

徐波：我觉得非常有可能。我们人类主要有两种能力，一种是与生俱来的能力，到了一定的年龄，通过基本的学习就能自然的学会说话、走路。另外一种是专业技能，如果要学会弹钢琴、水墨画等，仍然需要长时间的专业训练才能实现，因为这改变了人的特定知识结构。

多模态大模型为通用人工智能的研究奠定了非常好的基座。人类基本的知识、常识，看到的一些场景、物体，以及从物理世界看到的很多东西，都可以隐藏在这个大模型里面。比如要做语音识别，现在用很小的数据量就可以了，甚至可以逐渐做到不需要有监督的数据学习。

预训练模型作为基座模型虽然不是万能的，但是人工智能的研究范式和产业范式也会出现一些变化。比如说，现在产业都在讲算法开源，但算法的维护成本很高，尤其是现在人工智能的人才很稀缺，未来人工智能领域开放的可能是模型，客户获得大模型的接口再稍微加一点数据就能解决问题，即“大模型+小数据”，这是我们未来希望看到的大模型对产业带来的赋能。这个大模型技术从学术成果向产业转化可能还需要一个过程，但我认为不会太久，未来2-4年之内这些新技术都会逐渐得到应用。

观察者网：能不能具体讲一下紫东太初这个多模态大模型以音声图、以图生音的应用案例？

徐波：以图生音为例。可以不经过文本，直接在一个共通语义空间做转换，就是语义到语音的直接合成。以音生图，它不是先识别语音，再做文本的检索，而是直接在一个语义空间里面把这个声音转换成图像。所以我们为什么说这个是通用人工智能路径的探索，就是通过图文音三个模态固化出一个人类非常模糊但是非常有用，只是不知道人类大脑是怎么表达的一个语义空间的表征。

生成语音：一架大型飞机在天空中飞翔

输入语音：一个人在滑雪板上翻转在空中

除此之外，我们还可以给出一个多模态大模型的互动演示，涉及到很多的语音识别，语音合成，包括对图像的描述，中文的续写等等，通过语义空间直接的转换来完成。

这一系列的展示，是非常类人的多模态交互。它可以任意输入语音、图像或者文字，去输出语音，图像和文字的任意一种，真正实现三个模态之间的关联跟协同。它们中间就是我们讲的“统一的语义空间”。

这里主要表达三个观点，一是大数据+大模型+多模态，将改变当前单一模型与单一任务人工智能的研发模式，多模态大模型将成为不同领域的共性平台技术。其次，在目前的研究当中，有一种惯性思维是做人工智能都要用大数据，而当知识与数据混合驱动，增强模型的可信、可理解能力后，我相信随着这些技术的发展，人工智能学习对有标注的数据的依赖性会越来越小。

此外，国产化通用人工智能具有很高的技术门槛，需要大量的资金与数据的支撑，将使得人工智能的研究规则发生重大变革，对我国实现人工智能领域科技创新，占领核心技术高地具有重要战略意义。以图生音，以音生图，效果甚至出乎我们自己的想象，这也带给我们一项启发，让我们对未来的人工智能又增加的无穷的想象力。所以，多模态大模型人工智能值得我们进一步去探索，值得我们进一步探索更巧结构、更大规模、更强理解能力的模型以及相应的评估标准，也值得我们把这样的技术跟产业需求更好的结合起来。

再举一些生活化的例子。比如说，利用大模型可以实现欧洲杯转播的人工智能自动解说；在影视拍摄领域，可以根据剧本的文字自动生成画面和场景，供导演再加工；在教育领域可以根据语义内涵，自动生成画面和声音、甚至生成全新的音乐（而非在既有乐库中选取），类似实现妈妈给孩子讲故事等功能，让人工智能具备初步的想象力和艺术创作力。其实这与人类大脑工作机制是比较类似的。

首页上一页 1 2 3 下一页余下全文
|

举报
- 违反法律法规
- 垃圾信息、广告
- 色情、淫秽信息
- 人身攻击
- 谣言、不实信息
- 冒充，冒用信息
- 破坏社区秩序
- 其他
- 涉未成年人有害信息
观察者网举报制度规范
确定取消
标签人工智能 AI
- 责任编辑: 吕栋
- 这次冬奥会，裁判可能“不是人类”
  
  2021-07-20 13:41 世界人工智能大会
- 中芯国际发35亿股票激励，四大高管浮盈超1200万
  
  2021-07-20 13:29 上市公司
- 农业农村部：生猪高利润阶段已经结束，不要再赌市场
  
  2021-07-20 11:36
- 养猪龙头企业半年预亏30亿
  
  2021-07-20 08:06 聚焦三农
- 美媒：随着中国新规，2万亿美元赴美上市大潮宣告结束
  
  2021-07-19 16:33 上市公司
- 发改委：大宗商品价格总体回落，比年内高点下跌3%-14%
  
  2021-07-19 16:01 金融圈
- “继续限制ASML与中国大陆合作，是美国安顾问首要任务”
  
  2021-07-19 14:23 上市公司
- 证监会从严从快从重查办16起重大典型案件，点名这些违规行为
  
  2021-07-18 09:37
- 国家统计局相关负责人：上半年经济稳中向好动能不断增强
  
  2021-07-17 07:37 中国经济
- 长江存储：不会受紫光集团破产重整司法程序的直接影响
  
  2021-07-16 16:10 上市公司
- 央行：商业机构推出全球性“稳定币”将带来诸多风险和挑战
  
  2021-07-16 15:59
- 全国碳排放权交易在上海、武汉上线
  
  2021-07-16 09:58 金融圈
- 证监会发布《证券期货违法行为行政处罚办法》
  
  2021-07-16 07:32 中国经济
- 全国碳排放权交易明天开市
  
  2021-07-15 21:06 政策风向标
- 智能手机业务增长近4倍，紫光展锐称5G时代必须回到中国
  
  2021-07-15 17:03 科技前沿
- 6月新房价格环比涨幅回落，外媒：楼市政策效果显现
  
  2021-07-15 16:32 中国房市
- 商务部：将按照必要合理的原则审查影响国家安全的外商投资
  
  2021-07-15 15:48 政策风向标
- 全面降准是为应对经济下行？国家统计局回应
  
  2021-07-15 14:02 中国经济
- 李克强：此次审计发现违规倒卖大宗商品等问题线索，情节十分恶劣
  
  2021-07-15 13:44 中国经济
- 新冠检测收入下滑，华大基因二季度净利润骤降超50%
  
  2021-07-15 11:38 上市公司
搜索

   观察者头条查看全部

操心中国，美国“黑手”又要伸向马来西亚和泰国评论 27

特朗普要求“大搞特搞”，美团体急了：没中国不行评论 107

“美国人，真正该担心的时候到了” 评论 152

直播：算法向善——共话AI与人类命运共同体未来评论 8

“美国政府像青少年，拿信用卡挥霍，直到…” 评论 140

   风闻 · 24小时最热查看全部

   最新视频查看全部
最新闻 Hot
快讯

专访中科院自动化所所长徐波：构建紫东太初——全球首个三模态大模型，“类人智能”的大门正在打开

这次冬奥会，裁判可能“不是人类”

中芯国际发35亿股票激励，四大高管浮盈超1200万

农业农村部：生猪高利润阶段已经结束，不要再赌市场

养猪龙头企业半年预亏30亿

美媒：随着中国新规，2万亿美元赴美上市大潮宣告结束

发改委：大宗商品价格总体回落，比年内高点下跌3%-14%

“继续限制ASML与中国大陆合作，是美国安顾问首要任务”

证监会从严从快从重查办16起重大典型案件，点名这些违规行为

国家统计局相关负责人：上半年经济稳中向好动能不断增强

长江存储：不会受紫光集团破产重整司法程序的直接影响

央行：商业机构推出全球性“稳定币”将带来诸多风险和挑战

全国碳排放权交易在上海、武汉上线

证监会发布《证券期货违法行为行政处罚办法》

全国碳排放权交易明天开市

智能手机业务增长近4倍，紫光展锐称5G时代必须回到中国

6月新房价格环比涨幅回落，外媒：楼市政策效果显现

商务部：将按照必要合理的原则审查影响国家安全的外商投资

全面降准是为应对经济下行？国家统计局回应

李克强：此次审计发现违规倒卖大宗商品等问题线索，情节十分恶劣

新冠检测收入下滑，华大基因二季度净利润骤降超50%

操心中国，美国“黑手”又要伸向马来西亚和泰国

“特朗普要想访华，先把台湾问题说清楚”

“对以色列感到愤怒和警惕，沙特将与伊朗保持和解”

特朗普又给日本背后捅刀，逼得台积电没法了…

“大而美”法案通过，马斯克表态

朱时茂自曝被骗钱，“我还是反诈大使”

英F-35“趴窝”印度机场20天，快被“玩坏”了…

特朗普要求“大搞特搞”，美团体急了：没中国不行

“美国人，真正该担心的时候到了”

涉及中国，韩企与美国“一拍即合”

欧洲学者：现在，中国能不能反过来帮帮我们？

印度“硬刚”：将报复美国

“欧洲同行都觉得，未来十年谁将主导已无悬念，不会是美国”

普京：全世界都想进入中国市场

马斯克：对！全面公布所有文件

美方恢复出口，“不是恩赐也不是让步，是我们斗争来的”