视听整合：人机交互界面的新方向

2019年05月21日 10:13 来源：中国社会科学网-中国社会科学报作者：周爱保田喆谢珮

　　近年来，随着人工智能的蓬勃发展，机器智能在不断进步，机器视觉、语音识别、动作控制等领域实现了重大突破，并开始广泛渗透到金融、客服、医疗、无人驾驶等行业。当前，虽然有许多关于大脑对多模态信号敏感性的研究，但视听整合视角下人机交互的相关研究相对较少。本文试探索视听整合新方法，开发人机交互界面的新潜能。

　　人类智能和人工智能是智能时代的两个主要力量，人工智能是指用机器去实现所有目前必须借助人类智慧才能实现的任务，本质是基于学习能力和推理能力的不断进步，模仿人类思考、认知、决策和行动的过程。在实现人工智能的道路上，人机交互必不可少。人机交互指人与计算机之间使用某种对话语言，以一定的交互方式，为完成确定任务的人与计算机之间的信息交换过程，包括人通过输入设备给计算机输入信息、计算机经过运算再通过输出设备给人提供信息反馈等方面内容。

　　迄今为止，人机交互界面的发展大致经历了三个阶段：命令行界面（Command-Line Interface，CLI）、图形用户界面（Graphical User Interface，GUI）、自然用户界面（Natural User Interface，NUI）。NUI的出现为人工智能与用户体验带来了质的进化，未来的发展趋势倾向于自然交互模式，人机、环境的和谐交互将使它们处于自然融合的状态。自然的人机交互操作环境，能带给人们身临其境的感受。但现有人机交互的模式仍然停留在旧交互模式的阶段，无法满足当前人机交互方式多种多样的局面。

　　目前的多模态人机交互以自然用户界面为主。自然用户界面主要分为六大类：语音识别、触摸屏、手势识别、眼动追踪、触觉和脑机接口。人机交互界面的方式越来越丰富，技术越来越精湛。伴随着虚拟现实、人工智能等新技术发展为新一代人机交互平台，为构建视听触觉多模态有机融合的人机交互系统提供了丰富的可能。虚拟现实环境下视听触觉多通道人机交互有三个基本特点：首先是沉浸感。具有高逼真度、高沉浸感，可实时控制视听触觉多通道激励信号。其次是交互性。构建及时的人机信息双向交互机制，实现对大脑状态的实时观测与适当干预。最后是想象性。跨越时间和空间障碍，发挥人类智能无边的想象力。通过虚拟现实作为新一代人机交互的媒介，多模态交互系统变得愈加丰富。

　　早期的信息加工系统观点认为，认知系统加工的信息是抽象的符号，即信息通过各种感觉器官从外界进入认知系统时从模态化的信息转换成为统一的模态信息。而多模态交互系统，旨在通过使用基于识别的技术，支持对自然发生的人类语言和行为形式的识别。近期的研究表明，人类在表征外部世界时往往依赖于各自感觉器官的模态化信息。正如多感觉整合（multisensory integration，MSI）所指，个体将来自不同感觉通道（视觉、听觉、触觉等）的信息相互作用并整合为统一的、连贯的和有意义的知觉过程。多感觉整合能弥补单通道信息的匮乏及不确定性，有助于人们更迅速而准确地进行认知判断。例如，冗余信号效应（redundant signals effect，RSE）相比单通道（视觉或听觉）刺激，个体对同时呈现的多感觉通道刺激的反应更快速更准确。

　　在多模态交互过程中，如何将视、听、触、嗅等多通道信息完美整合起来，并完成机器与人的自然交互一直是人机交互界面设计的难题。随着当前人机交互所涉及的模态越来越丰富，各个模态存在相互影响，也存在相互分离，视听整合理论观点在人机交互领域的重要性也日益凸显。

　　视听整合（audiovisual integration）是一种典型的多感觉整合过程，在与他人面对面交流时，个体会整合视觉和听觉信息以更好地进行信息交流。McGurk效应是一种典型的视听整合现象，指的是特定发音的视觉刺激与特定发音的听觉刺激同时呈现时，个体可能产生全新感知的现象（例如，“ga”的唇部发音动作和“ba”的听觉刺激同时呈现，人们可能会感知到另一个全新的音节“da”），这表明视觉信息会对听觉感知产生影响。研究者们认为，McGurk效应是视听整合的结果，因此，McGurk效应发生率可以作为视听整合强弱的指标。

　　以往有关视听整合脑机制的研究发现，颞上沟（superior temporal sulcus，STS）在语音和非语音的高阶段视听整合处理中具有重要作用，理解人类在视听整合过程中大脑的运行机制，更加有利于人机交互设计与发展。尤其是对于残障人士（如无法操作鼠标）用户，结合视听整合的扫描输入大大提升了该用户群体的体验度与参与度，降低用户的认知负荷，提升人机交互的真实感、沉浸感。

　　试想一下在未来的社会中，人类在工作与生活中，只需要一个手势、一个眼神乃至一个想法就可以实现自己需要的操作。这样的人与机间的“自然交互”，就像人与人之间的对话一般，而通过按键、旋钮、触控屏等输入界面操作的传统方式，或许将会在未来的自然交互中被淘汰。2017年11月，中国科技部宣布了首批国家新一代智能开放创新平台名单：依托百度公司建设自动驾驶国家新一代人工智能开放创新平台，依托阿里云公司建设城市大脑国家新一代人工智能开放创新平台，依托腾讯公司建设医疗影像国家新一代人工智能开放创新平台，依托科大讯飞公司建设智能语音国家新一代人工智能开放创新平台。如今，我们已经可以看到非常成熟的以语音交互、面孔识别和动作控制为主的交互方式，科大讯飞的语音单通道识别率甚至已经达到90%。阿里未来酒店中精准的面孔识别技术让客户仅凭刷脸就可以享受所有服务，不用再携带房卡以及身份证件。

　　人类所接收的信息中有97%是来自视觉和听觉的，视觉和听觉作为人类最主要的感知通道，总是不断地接受外界复杂环境的刺激输入。真实世界交互往往是多模态的交互，人和人之间有语言交流、眼神交流，也会有身体姿态的表现，由于这些感觉噪音的存在，我们的大脑会将视听线索进行整合来避免单通道信息的不确定性。视听整合中，听觉通道提供了更好的时间分辨率，视觉通道提供了更好的空间分辨率，当两者产生整合时，会提供比听觉或视觉通道更大的时间和空间分辨率。未来的人机交互可立足于此，以更贴近人—人之间自然交互的行为特征作为用户界面的设计原则。

　（作者单位：西北师范大学心理学院、甘肃省行为与心理健康重点实验室）

安益学习 | 亦然自学

坚持公益原则推进科技普及缩小数字鸿沟助力社区发展