-
余亮:与谷歌翻译小别胜新婚之后,看清中国人工智能到底和谷歌比什么
关键字: 谷歌翻译人工智能翻译软件语音识别百度翻译机器翻译的进化
翻译,是“自然语言处理”的最重要分支,也是比较难的一支。人工智能在早期就是符号智能,人把各种规则变成符号算式输入机器,结果深挖下去发现规则比恒河沙粒还多,累死了自己。
最早的机器翻译方法就是基于词和语法规则。注意,人类并不了解大脑是如何工作的,但是依然工作得很好。反过来,人类自己语言熟练,不代表人能理解自己语言神经是怎么运作的。这就导致依赖人工规则的翻译软件笑话百出。即便现在,谷歌、百度也无法避免下面这样的翻译错误:
(百度)
后来出现了“统计机器翻译方法”(SMT),也就是通过对大量的平行语料进行统计分析,找出常见的词汇组合规则,避免奇怪的组合。
SMT翻译短语效果好,但是翻译句子就一般。近几年基于神经网络的翻译模型( NMT)崛起。 与AlphaGo的神经网络原理类似,NMT模拟人脑神经的层级结构,具有多层芯片网络,从基础层开始,越是基础的层级就越是只处理局部的任务,把提炼出的局部模式传递给下一层。下一层再对上一层接收来的信息进行汇总和进一步抽象,自动识别出总体规则、模式。人不了解那些规则也没关系,反正交给机器了,只要结果正确即可。这就是端到端的翻译。
但是无论SMT还是NMT,前提是数据量要大。简单的说,规则都是用函数表示的。假定给你一个未知函数f(x),我告诉你当x=5,f(x)=250,你能推导出函数式f(x)到底是什么吗?显然不能,可是如果给你100个x的具体值,及其对应的f(x)的值,你就可以通过数学学科里的逼近计算或者拟合函数推导出一个近似的函数f(x)。如果让机器去做这个推导,那就叫做“机器学习”。吴恩达的著名项目机器识别猫,就是输入了数百万猫的照片(x),告诉机器输出结果是猫这个语词,机器自己找到了图像形状到“猫”这个词之间的推导规则。
(从无数散点数据中近似地拟合出一条函数曲线)
在翻译界的常识是:机器翻译是突然爆发的,原因在于互联网带来的大数据。前谷歌工程师吴军在《智能时代》里说过,2005年,谷歌翻译在美国翻译界大赛上异军突起,秒杀老牌翻译公司,靠的就是更多的数据。因为谷歌有互联网,有网上人类提供的海量翻译例句。
十年后机器翻译第二次爆发。百度和谷歌一前一后上线NMT神经网络翻译系统。相比SMT聚焦于局部信息(短语),NMT更擅长利用全局信息——在对整个句子的信息解码、编码后,才生成结果。所以无论是语音识别还是翻译,你会发现句子长一点,机器识别和翻译的效果就会更好一点。
比如,语序问题是“翻译”头疼的问题,中文会把所有的定语都放在中心词前面,英文则会倒装,以往机器常混淆这个顺序。 NMT通过基于深度学习的神经网络,向人类较好地学习到语序模式,长句翻译比以往流畅多了。
在谷歌和腾讯都工作过的吴军,却认为在搜索、翻译领域,排在前面的就是谷歌和百度,别人很难追上这俩。因为他们都是搜索引擎起家,先发优势明显。谁积累的数据多、算法训练成熟,谁就赢者通吃。搜狗搜索技术不弱,且有微信搜索的优势,但是搜索结果依然被人诟病(甚至被诟病的机会也比百度少得多),就是因为起步晚,吃了马太效应的亏。
为了优化对人类语言世界的理解,谷歌和百度都构建了庞大的知识图谱,知识点之间不断生成的关系非后来者能追。
段子手的调侃也抓住了一些本质——由于长期被排除在中国市场之外,谷歌缺少中文数据。去年谷歌的“你画我猜”游戏风靡一时,我看那其实就是一种数据采集和训练模式。你的每一次绘画和判定都是在教育谷歌的图像识别系统更精准。谷歌善于用喜闻乐见方式,既做到PR也做到技术提升。
谷歌翻译进入大陆,以后用的人越多,它的段子也可能翻译越准,所以比段子没什么好得意的。人类之间存在文化壁垒,但是对于没文化的机器,一切壁垒都会击穿,或者说一切文化它都能学会,从推特上的种族歧视言论到中国的神段子。真正要比拼的只有技术深度和产品体验的积累。
很多人欢呼谷歌翻译归来,不一定是关心技术,那意思“翻译”出来就是:谷歌终于回来了,我当年的香没有白烧。
仅从技术角度来讲,我说一切都是翻译。语音识别也是一种翻译(从声音信号翻译到文字符号,或者从一种发音翻译到另一种发音)。机器人的文艺世界也离不开翻译。英特尔、百度等公司都推出过机器写诗游戏,经常真假难辨。试分辨下面两首诗哪一首是人写的:
(答案在文章最后)
听王海峰介绍过机器写诗的原理。出乎很多人的意料,这个写诗系统正是用翻译模型来做的。在系统看来,当已经有了第一句诗,那么写作第二句诗的过程就是一个翻译过程——根据第一句寻找合适的对应语句:
首先根据用户 Query(诗歌题目)对要生成诗歌的内容进行规划,预测得到每一句诗的子主题,每一个子主题用一个单词来表示。这个过程和人类创作诗歌比较相似,诗人在创作之前往往会列出提纲,规划出每一句诗要描写的核心内容,然后再进行每句诗的创作。主题规划模型在生成每一句诗的时候,同时把上文生成的诗句和主题词一起输入来生成下一句诗。在这里,主题词的引入可以让生成的诗句不偏离主题,从而使整首诗都做到主题明确,逻辑顺畅。
基于主题规划的诗歌生成框架(写诗 2.0 版本)如图所示:
图:写诗 2.0 框架(来源于论文 Wang et al. 2016),有兴趣读者可以参考“机器之心”上这篇有趣文章 ,另外我不同意诗人写诗是先给每一句列提纲的。
翻译技术无处不在,这样我们才能从技术角度理解为什么亚马逊、谷歌、百度都无比重视智慧音箱产品,那就是一个人机对话系统,在人与机器世界之间充当翻译官角色。
- 原标题:与谷歌翻译小别胜新婚之后,看清中国人工智能到底和谷歌比什么 本文仅代表作者个人观点。
- 责任编辑:马密坤
-
商务部:美方主动向中方传递信息,中方正评估 评论 119“白宫在努力控制叙事,但美国消费者很清楚” 评论 107义乌玩具商对特朗普翻白眼:我们不在乎! 评论 91挑起对华贸易战,“特朗普让美国娃准备:为国牺牲” 评论 121最新闻 Hot
-
商务部:美方主动向中方传递信息,中方正评估
-
“群聊泄密门”始作俑者被解雇,原来他早就被…
-
“英伟达焦虑:若DeepSeek用中企芯片…”
-
瑞安航空:若涨价,退了波音考虑C919
-
“白宫在努力控制叙事,但美国消费者很清楚”
-
美财长:该降息了
-
“我们会考虑恢复斯大林格勒的名称,但最终要由市民决定”
-
“经济上没好消息,但他是靠这个当选的,问题就来了”
-
义乌玩具商对特朗普翻白眼:我们不在乎!
-
挑起对华贸易战,“特朗普让美国娃准备:为国牺牲”
-
内阁“鼓掌欢送”,特朗普:委屈你了
-
无罪判决被撤销,李在明参选韩总统之路再添波折
-
为什么丧亲也成了婚恋中的“劣势”?
-
日本急着跟特朗普签协议:中国都说你不可靠啦
-
美乌终于签了矿产协议,最后一刻仍在“拉扯”
-
黄仁勋劝特朗普:得改,中国紧追其后
-