大数据时代：机器翻译能否取代人工

作者：本报记者袁于飞《光明日报》（ 2016年01月18日 05版）

翻译机器人 CFP

在2015年度国家科学技术奖励大会上，由百度与中国科学院自动化所、中国科学院计算技术研究所、浙江大学、哈尔滨工业大学、清华大学等单位共同研发的“基于大数据的互联网机器翻译核心技术及产业化”项目（以下简称“机器翻译项目”），获得了国家科学技术进步奖二等奖。

此项目获国家科技大奖，标志着互联网大数据为我国机器翻译技术插上了腾飞的“翅膀”，同时也引发了人们对机器翻译的关注和探讨：在如今的大数据时代，机器翻译能否取代人工？记者就此采访了相关专家。

“机器翻译”技术是世界性难题

机器翻译技术涉及计算机、认知科学、语言学等学科，一直被科学界公认为是人工智能领域最难的课题之一。

“机器翻译出现于20世纪40年代，美国等发达国家曾出现过机器翻译技术研究热潮。然而多年来，机器翻译却一直没有得到普遍应用。”百度技术副总裁、机器翻译项目负责人王海峰接受记者采访时介绍，因为让计算机理解人类语言，要经历从分析、理解到转换生成等繁杂步骤，让原本只认识“0”和“1”的计算机去实现不同语言之间的翻译，涉及语言现象的灵活多样、翻译知识获取难度大、翻译模型计算复杂度高等多个难题。

据了解，中国机器翻译研究起步于1957年，是世界上第4个开始研究机器翻译的国家。虽然历经几十年的发展，但机器翻译技术始终未能突破真正实用的门槛。王海峰从1993年初开始从事机器翻译领域研究工作，最终他组建了项目研究团队，集合了清华大学、浙江大学、哈尔滨工业大学以及中科院等国内顶尖科研力量，通过百度丰富的海量互联网数据，再经过云计算平台处理，才让机器翻译从理论走向实践，变成可能。

基于大数据的互联网翻译成为突破口

近些年来，随着互联网以及大数据的迅猛发展，基于大数据的互联网翻译成为了机器翻译技术实用化的突破口。王海峰说：“组建研发团队后，我们从整个互联网上挖掘翻译资源，在此基础上使用云计算平台训练统计翻译模型、深度学习模型，最终让机器翻译真正达到实用水平，也实现了机器翻译领域很多研究者们的毕生夙愿。”

王海峰介绍，互联网大数据给机器翻译带来了机遇，语言资源数据量激增，使得海量翻译知识的自动获取和实时更新成为可能。但同时，互联网大数据也带来了新的挑战：比如互联网语言数据噪声大，语言歧义现象多，小语种双语资源数据稀缺等。他们的项目团队遭遇了不少难题，比如2010年初，通过数据分析，他们的研究团队发现，互联网数据虽大，里面却存在着大量的低质语料，比如“好好学习、天天向上”在抓取回来的语料中大多数都被翻为了“good good study，day day up”。

面对如此令人啼笑皆非的语料，项目团队反复研究改进，最终将传统文本处理技术与互联网技术完美结合。国家科技奖的项目评审专家认为，该获奖项目突破了机器翻译领域内的四大世界级技术难题：“提出基于大数据的互联网机器翻译模型，快速响应高负荷翻译需求；基于大数据的翻译知识获取，克服语言数据噪声问题；通过深度语义分析和翻译技术，解决语言语义歧义问题；提出枢轴语言机器翻译技术，实现了稀缺语种的多语言翻译。”

未来需要机器翻译和人工翻译的融合发展

现在，在百度等大数据翻译平台，输入任何需要翻译的语言，都能得到比较准确的翻译语言结果。那么，有了机器翻译技术，未来机器翻译是否会取代人工翻译呢？

“与人工翻译相比，机器翻译具有独特的优势。随着互联网数据的不断丰富、翻译模型的持续创新，机器翻译效果会被打磨得越来越好。也许三五年后，看似高大上的机器翻译会融入日常生活的方方面面。”王海峰接受记者采访时表示：“首先，机器翻译现在可以覆盖多达几十种语言，这对于人工翻译来说是难以达到的。另外，机器翻译系统具有可涵盖多领域、多行业的海量词典和翻译模型，可在不同场景下进行翻译，而反观人工翻译，则往往只能精深于某个特定的领域或行业。机器翻译正在为人们生活带来各种便利。人们可以通过机器翻译，解决衣食住行中遇到的语言难题。小到出国旅游、科技文献翻译，大到国际贸易、跨语言文化交流，多语言信息联通需求，都让机器翻译发挥重要价值。”

哈尔滨工业大学的李生教授表示，机器翻译在生活服务、学习等领域正逐渐替代人工翻译，成为个人翻译助手。不过目前的翻译技术手段还无法完全达到“信、达、雅”的标准。但随着信息技术的推动，实现及时的全世界信息共享，单靠人工翻译显然很难完成，但机器翻译也不会完全替代人工翻译，二者需要融合发展。

（本报记者袁于飞）

安益学习 | 亦然自学

坚持公益原则推进科技普及缩小数字鸿沟助力社区发展