识别技术 提升生活智商:智能手机、机器人变得更加能听、能说、能看

本报记者 余建斌   《 人民日报 》( 2015年06月21日 07 版)

  参观者在体验具有人脸识别、可视对讲等功能的门口机。

  左上:小朋友在体验带人脸识别系统的身份识别产品。
  右下:语音识别智能机器人。

  银行推出的“ 超级柜台”自助设备具有指纹感应功能。

  核心阅读

  随着语音识别、图像识别和人脸识别等技术越来越精确和高效,智能终端、智能家居乃至机器人等“智能硬件”变得能听、能说、能看,不断提高着机器的“智商”,更好地为人们服务。

  买个东西?刷脸就行

  作为一个资深“智能手机控”,“90后”姑娘小夏当然会尝鲜“智能生活”。

  早上起床,小夏打开手机语音助手,说“今天我有哪些活动?”手机屏幕马上自动出现小夏之前设定好的当天行程表。吃苹果还是吃香蕉当早饭?用“拍照搜索”的手机APP(应用程序)拍张照片,两种水果的热量多少就一目了然。上班路上,看到不知名的花,小夏觉得好看,拍下来后仍旧用手机APP识别,就能知道花的品种名称。

  到了公司门口,小夏在门禁系统前一扬脸,嘟一声,门就自动解锁。午休时闲聊,小夏看到同事的裙子很漂亮,征得同意后给同事拍了个照,手机APP一识别,手机上马上出现了相同款式的价格和可购买的电商渠道。收到男朋友的短信,小夏懒得打字,拿起手机说了一段话,说完自动转换成文字回了过去。下班坐地铁回家,小夏想起有首歌很好听,想给男朋友发个链接,但一时间想不起歌名了,于是对着手机哼了一段旋律搜索歌曲,熟悉的歌名真的出现了。

  对小夏来说,这些真实便利的“智能生活”,要感谢计算机识别技术的发展。随着语音识别、图像识别和人脸识别等技术越来越精确和高效,智能终端、智能家居乃至机器人等“智能硬件”变得能听、能说、能看,不断提高着“智商”,更好地为人们服务。

  “人脸识别、图像识别都属于计算机视觉技术。”微软亚洲研究院首席研究员孙剑说,计算机视觉就是让机器可以像人一样能够看图片或者看视频,并能够理解这个图片的内容,建造一个像人眼睛一样的机器。比如,随便一张图,计算机可以识别图里的物体,包括杯子、电脑、桌子等等。

  “语音识别的目的,是让人说的话能被机器听清楚,之后还要听明白。语音合成,目的是要让机器能够用最自然、最清晰的方式说话。”语音专家、微软亚洲研究院首席研究员宋謌平认为,现在很多情况,机器只是“听到”了,和“听懂”还是有距离。就像去看抽象画,每个颜色都认得,每个线条都知道,但可能还是不知道这个抽象画是什么意思。

  随着互联网和移动互联网的崛起,这些计算机识别技术日益深入生活。马云在前不久的德国汉诺威电子展上演示了在淘宝刷脸支付。最近火爆全球互联网的“颜龄机器人”网站How-Old.net,能够判断用户上传照片中人物的性别和年龄。

  语音识别应用方面,目前大部分的手机输入法都已支持语音输入转文字功能,也出现了苹果希瑞和微软小娜等通过语音交互的智能助手。百度语音技术内嵌在手机百度、百度输入法、百度地图、百度导航等一系列产品中,可以延伸应用到汽车、医疗、电商、家电和车载等许多方向。微软即时通话软件Skype也刚刚对所有用户开放了Skype Translator中文预览版实时语音翻译技术。

  报个菜名?手机就会

  “长时间来,让计算机能看、能听、能说一直是我和计算机界同行们孜孜以求的目标。”孙剑说,但要研发出一个像科幻大片《星际穿越》里“Tars”一样能看懂周围世界、听懂人类语言并和人类进行流畅对话的智能机器人,要走的路还有很长。

  比如,对计算机而言,识别一个在不同环境下的人,还不如识别在同一环境下的两个人来得简单。这是因为,最初研究者试图将人脸想象为一个模板,然而人脸虽然看起来是固定的,但角度、光线、打扮不同,样子也有差别,这都令简单的模板难以匹配所有人脸。如果单纯识别面部,而不考虑发型和身体的其他部分,人类的正确率约为97.5%,计算机目前则能达到99%以上。

  “这是否意味着计算机已经胜过了人类?不是,因为人们不只观察面部,身材和体态都有助于人们认出对方。在复杂光照的真实环境下,人能够更智能地选择这些分支帮助自己决策,而计算机在这方面则要逊色许多。”孙剑说。

  幸运的是,在互联网海量数据的帮助下,以及深层神经网络、深度学习、大数据处理等人工智能技术的另辟蹊径,包括计算机在内的智能机器有了大量的素材进行学习。以往学术界做语音识别通常是几十小时的训练语料,而互联网公司有大量的服务器集群并行计算,可以处理成千上万小时的训练语料。同样的,在用人工智能的深层神经网络训练计算机图形识别能力时,也能够投入海量的图像。

  区别于现在的图像识别技术,还有一种叫做光学字符识别的技术,已经在把图书馆藏书扫描转化为电子书过程中发挥关键作用。而结合其他的计算机识别技术和实时翻译功能,这种技术又挖掘出新的应用:把手机摄像头对准菜单上的法语菜名,屏幕上实时显示出翻译好的中文菜名,甚至能念给你听;街景地图采集车游走于大街小巷,拍摄街景的同时也从街景图像中自动提取文字标识,让地图信息更丰富更准确。

  此外,微软亚洲研究院还与中国科学院计算技术研究所、北京联合大学合作了一个项目,致力于通过姿势捕捉设备,利用手势识别和语音技术,使得听力障碍人士在观众面前用手语演讲,每位观众都能不费吹灰之力听懂他的演说。

  过去几年里,全球互联网领域的几大巨头——谷歌、苹果、微软、脸书以及百度,都在积极进行人工智能方面的研发,以改进其在图像、视频及语音信息处理方面的服务能力,因此,人工智能技术——企图了解智能的实质,并生产出能以人类智能相似的方式做出反应的智能机器,也被认为是互联网产业的下一个引爆点。

  是敌是友?门禁知道

  尽管目前智能手机上的语音助手已经算是标配应用,但人与人交流并不只靠语音,还有手势、眼神、视觉、环境等等。在人工智能技术的支持下,语音识别、图像识别等技术归根结底都是在做一个事情,让机器更聪明,这样就可以理解人,可以与人自然地交流,可以越来越多地帮助人类去执行一些任务,未来是一个智能化的世界。像智能门禁、智能手机、智能手表和智能汽车都需要类似于语音助手的操控。智能家居要根据主人的生活规律、外部环境、阶梯电价多个因素来提供最舒适最环保的方案,这些场景,都离不开图像识别、语音识别等技术。

  孙剑认为,除了人类自身也能做到的识别功能外,计算机视觉还可应用在那些人类能力所限,感觉器官不能及的领域和单调乏味的工作上:在微笑瞬间自动按下快门,帮助汽车驾驶员泊车入位,捕捉身体的姿态与电脑游戏互动,忙碌的购物季节帮助仓库分拣商品,离开家时扫地机器人清洁房间,自动将数码照片进行识别分类……

  “或许在不久的将来,超市电子秤就能辨别出蔬菜的种类;门禁系统能分辨出带着礼物的朋友,抑或手持撬棒的即将行窃的歹徒;可穿戴设备和手机帮助我们识别出镜头中的任何物体并搜索出相关信息。更奇妙的是,它还能超越人类双眼的感官,用声波、红外线来感知这个世界,观察云层的汹涌起伏预测天气,监测车辆的运行调度交通,甚至突破我们的想象,帮助理论物理学家分析超过三维的空间中物体运动。”孙剑说。

  而在宋謌平想象中,智能语音技术的终极目标之一,是做出一个“全球翻译器”的语音合成器,通过这个翻译器,说中文的人,不懂英文也照样能“说”得标准,而且声音就跟本人一样,不同语种不同肤色的人们之间都可以无障碍沟通。“以后大家都可以像会多种语言的钱锺书先生一样,用法语、拉丁文、英文、中文夹杂着说一段话。”

  本版制图:蔡华伟