人机协作，新一代技术在路上

冯杰

2024-05-16 02:02

边凯归

光明日报（ 2024年05月16日 16版）

未来世界，将是人机协作的世界。所有创新都需要从人的角度出发，而人机交互与协作技术也必须迎合和满足用户的需求，让人更方便快捷地完成任务。如今，我们正处于从人机交互向人机协作迈进的阶段——人机交互是人与计算机通过输入与输出设备进行沟通对话；人机协作则是建立在人机交互基础之上，让人和计算机通过优势互补，去共同完成任务。

从信号交互到“心领神会”

不知道是巧合还是有意设计，人机交互方式的演变与升级，完美复现了人类从婴幼儿到少年，再到成人的交互方式。这一发展过程可以大致分为四个阶段。

第一阶段是手眼协同交互。在人类婴幼儿阶段，还未学会开口说话之时，总习惯用眼睛来观察，然后用手指指戳戳，来表达自己的意图，或者与其他人进行沟通。类似地，计算机交互的首次大规模应用，也得益于图形界面与鼠标、键盘的问世，人们可以通过手指操控这样一套输入输出设备，与计算机进行沟通。这一阶段，人机交互基本是无声的。

第二阶段是基于语言和对话的交互。人类学会说话之后，会不断地学习，然后慢慢掌握一门甚至多门语言，不断提高自己的听说读写能力，而与更多的人进行更流畅的沟通。同理，语音识别技术以及自然语言处理技术的快速发展，使得计算机也可以听懂，并在一定程度上理解人类的语言，从而帮助人类完成某些操作。例如，手机语音助理软件、智能汽车的车载语音助理、家用智能音箱等产品的广泛使用，已经证明了这一技术的成功。

第三阶段是引入、融合眼神等生物信号的交互技术。成年人之间的默契往往不需要语言，“察言观色”便可领会彼此的意图。此类人机交互技术的标志性产品已于2024年上市——一种增强现实AR头盔，结合虚拟现实VR技术，通过组合多个摄像头和传感器，进行眼球追踪，然后提取眼球的特征信息来监测眼动的变化，从而控制头盔内虚拟屏幕上的光标定位，最后结合手势、语音等，完成在屏幕上的相关操作。假设人类目光所及的位置通常与思考的事物有关，那么，该技术就有可能通过眼动，让机器推断出人正在关注和思考的部分内容。

第四阶段则是一种基于意念感知的交互方式——“心领神会”，即通过非言语的方式传达信息和理解对方的意图。这也将成为未来人机交互技术发展的必经阶段。一种可能的实现方式是脑机接口交互技术，目前该技术还处于科学研究阶段。国外某公司于2024年向公众展示了首个产品“心灵感应”（Telepathy），即通过手术等方式，直接将电极植入到受试者的大脑皮层，以获得高质量的神经信号。展示中，首位接受脑机接口设备植入的患者，可以借助该设备移动计算机光标。同时，国内也有研究团队成功将无线微创半侵入式脑机接口，植入了两名瘫痪患者的颅内，成功采集到感觉运动脑区神经信号，使两位患者实现了自主脑控喝水，并成功用脑电信号控制电脑光标移动。但是，脑机接口的植入物需要替换一块头骨，因此，采用该技术仍然存在一定的伦理和社会问题。

人机协作为人机交互赋能

人机协作是建立在成熟的人机交互手段之上的智能技术，以达到人机协同完成任务的目的，一般可以分为人类单向指挥机器和人机双向合作两种模式。

单向指挥的人机协作模式，往往依赖于人通过传统的交互方式指挥机器完成一些重复性操作。例如，人类通过简单的指令或者多轮对话，基于鼠标键盘等传统交互手段，使用大模型让机器完成一些简单的创作（生成文本、图片、视频）。但是，普通用户并不精通如何对机器发号施令，会浪费大量时间去配合机器。如对大模型输入提示词进行设置，然后浏览机器返回的内容，这些内容很可能无法达到人类的要求。此外，通过声音、眼神、表情等信号，基于更先进的人机交互技术，人类可以远程控制手机或者智能家居设备完成操作。

人机双向合作往往采用语音等多模态信号，但普遍存在指令不清晰、机器无法完成预计指令效果等问题。如智能音箱有时听不懂或者发生识别错误，导致人类需要不断重复指令却没有提升效果。在这种模式下，机器收到人类的指令信号后，试图完成相关任务，并将结果展现给人类；如果人类不满意，就需要多次重复前述的交互过程，直到任务圆满完成，或者因不满意而放弃，不再继续。

笔者认为，虽然还面临诸多难题，但双向合作的人机协作模式将会是未来的发展方向，而如何实现人机协作优势互补，而不是单向指挥，是新一代人机协作技术需要解决的难题。

双向合作的人机协作模式主要依赖于两种能力，一种是机器能否真正理解人类指令的能力，另一种是机器适当地与人类配合，帮助我们完成任务。后一种模式需要借助更高级的人机交互技术。

人机协作共同创作的场景，可以帮助我们理解这种模式。人类有天马行空的巧思，机器则善于快速完成重复性工作。当人和机器共创一篇文章、一幅画作时，人类可以在关键段落、关键局部进行创造性构思，而机器可以瞬间领会人类的意图，帮其完成其他部分。进一步地，当人和机器共同执行多个复杂的、包含一定随机性的决策任务时，人类可以在关键时间节点对关键信息进行判断，而机器可以在领会人类意图的基础上，在短时间内完成其他操作，同时检查决策中的一些漏洞和错误，还可以总结和梳理决策后的反馈信息，以供后续决策参考。在这一过程中，是人类的思路和在关键节点的操作，带着机器协同推进完成任务，而不是像单向指挥模式那样，将所有任务一股脑丢给机器去自主完成。

人机交互如何升级到人机协作

人机交互技术只是人机协作的底层沟通手段，还需要定义与设计在特定或通用任务中，人与机器的动作空间（即人和机器分别可以做哪些动作），人与机器操作对象空间（即人和机器所做动作的对象有哪些），以及学习算法（即机器正确理解人的操作的算法）。

打个比方，人在一个特定环境中（如厨房），其动作空间、操作对象空间，都是相对固定的，所能完成的任务也是有限的。在这个环境中，无论是特定的任务，还是通用的开放式任务，人机协作应是有章可循的——我们不允许机器脱离人类可控的范畴，进行超出权限或违规的操作。因此，机器人需要学习算法，才能够真正看懂、听懂、理解人类的操作，去实现真正的双向合作模式的人机协作。

进一步，更加复杂的任务需要多人、多机协作技术，这将涉及任务的分工、管理与执行，考验人类对人机交互与协作系统的设计与理解，毕竟大多数任务是由人类发起的。

例如，在复杂系统监测任务中，面临海量的样本数据，机器可以帮助人类快速筛选出可能的预警样本，而人类需要对筛选出的预警样本做最后的决策，人类甚至可以将一部分简单的决策工作交给机器去执行。但是，如何定义预警样本的筛选标准，以及如何在多人和多个机器之间划分决策工作的比例，将关系到整个任务执行的准确率和人工成本。试想，如果一个任务，多人协作都无法妥善完成，那么多人、多机协作是否可以胜任？所以，新一代人机协作技术除了定义上述动作空间、操作对象空间、学习算法之外，还需要有一套标准化的流程，以便自动对复杂任务进行理解与分工，在保证任务执行准确率的前提下减少对人工的依赖。

最后，即使完成了人机协作分工，仍面临其他诸多挑战。第一，机器不会懈怠，但人不一定一直是合格的协作者。那么，机器是否还需要反过来监测人类的协作质量，并在需要的时候，做出适当的补充？第二，当机器一旦可以部分或者完全替代人类工作的时候，人类是否具备足够的能力控制机器，以防机器拥有自主智能之后犯错，甚至作恶？第三，人机协作还会涉及数据隐私泄露的问题，特别是在复杂任务中，机器会存在被动泄露数据的风险。已有的研究证明，使用大模型过程中，会出现因为数据“投喂”不当，造成敏感数据泄露等问题。

这些问题还没有答案，但我们不能裹足不前，而是要在发展中解决问题。我们坚信，未来的人机交互会更流畅更便捷！

（作者系北京大学计算机学院研究员）

]]>

2024-05-16 10:03

1784