为了解决机器翻译的理解障碍，Google 要让机器在句子中找线索 07月15日更新

机器学习（Machine learning）已经证明是很有用的翻译工具，但在人们使用语言的变化多元情况下，倾向逐字逐句翻译的机器仍可能出现严重错误，Google 负责研究的部门近日发文解释了这个问题，以及他们找到的解决方案。

Google 自然语言处理部门（NLU）的 Jakob Uszkoreit 表示，目前语言理解任务主要都是透过神经网络进行，其中又以递归神经网络（RNNs）为主要核心，像是建立语言模型、机器翻译和问答都是基于此在发展。

但是在语言理解上，机器往往会面临一些语意的理解问题，像是“bank”同时有银行、河岸等多种意思，在不同的文法句子中，人们很快就能依据前后文推断出代表的意义，但逐字翻译的算法很有可能犯错，因为它无法确定哪个意思才是正确的。

这种错误经常在机器翻译出现，但如果只为了句子的语义问题就反复修改神经网络，实在不太有效率，因此 Google 团队在进行研究后，直接推出一套搭载解决方案的新型翻译系统“Transformer”。

在 Transformer 系统中有设定所谓的“关注机制”（Attention Mechanism），在这个机制设定下，系统会将句子中每个单词配对比较，来查看其中是否存在任何一个单词，会以某种关键方式产生相互影响，进而理解是“他”还是“她”在说话，又或者“bank”代表河岸还是银行。

有趣的是，在关注机制之下，人们得以一窥翻译系统的思考逻辑：在 Google 团队的设定中，Transformer 系统会针对每个“单词”与“单词”间的相关性给予评分，因此你可以看到哪些它认为是相关的，哪些又认为是无关紧要。

在 Google 团队的测试中，Transformer 系统不论在“英文→德文”或是“英文→法文”的翻译中，在 BLEU 评价都胜过应用 RNN 和卷积神经网络（CNN）的翻译系统。

其实不仅 Google，翻译公司 DeepL 也正在开发类似的关注机制，联合创始人 Gereon Frahling 甚至认为，他们的版本将比 Google 的系统更好。

只是在翻译上，机器可能还有很多需要学习，毕竟语言总是有一些意义不明确的词，像是英文的它（it），可以是街道、动物或许多事物，人的大脑会自动分辨并理解，但机器就还是需要“补习”了。

（首图来源：shutterstock）

为了解决机器翻译的理解障碍，Google 要让机器在句子中找线索