斯坦福大学的吴佳俊和李飞飞团队近日提出的 NOIR 系统能让用户通过非侵入式脑电图装置控制机器人完成日常任务。神经信号操作智能机器人(NOIR),这是一个通用的大脑-机器人接口(BRI)系统,使人类可以通过大脑信号来命令机器人执行日常活动。通过这个接口,人们可以使用非侵入性脑电图(EEG)技术来传递他们感兴趣的目标和行动,从而与机器人进行交互。它协同集成了机器人学习算法,使NOIR能够适应用户个体并预测他们的意图。这意味着系统可以根据不同用户的需求和行为习惯进行自适应,从而提供更个性化和高效的服务。可以说,这项工作改进了人与机器人的互动方式,将传统的互动渠道替换为直接的神经通信。
该系统基于非侵入式的脑电图(EEG)技术。据介绍,该系统依据的主要原理是分层式共享自治(hierarchical shared autonomy),即人类定义高层级目标,而机器人通过执行低层级运动指令来实现目标。该系统纳入了神经科学、机器人学和机器学习领域的新进展,取得了优于之前方法的进步。该团队总结了所做出的贡献。
首先,NOIR 是通用型的,可用于多样化的任务,也易于不同社区使用。研究表明,NOIR 可以完成多达 20 种日常活动;相较之下,之前的 BRI 系统通常是针对一项或少数几项任务设计的,或者就仅仅是模拟系统。此外,只需少量培训,普通人群也能使用 NOIR 系统。
其次,NOIR 中的 I 表示这个机器人系统是智能的(intelligent),具备自适应能力。该机器人配备了一个多样化的技能库,让其无需密集的人类监督也能执行低层级动作。使用参数化的技能原语,比如 Pick (obj-A) 或 MoveTo (x,y),机器人可以很自然地取得、解读和执行人类的行为目标。
此外,NOIR 系统还有能力在协作过程中学习人类想达成的目标。研究表明,通过利用基础模型的最新进展,该系统甚至能适应很有限的数据。这能显著提升系统的效率。
NOIR 的关键技术贡献包括一个模块化的解码神经信号以获知人类意图的工作流程。要知道,从神经信号解码出人类意图目标是极具挑战性的。为此,该团队的做法是将人类意图分解为三大组分:要操控的物体(What)、与该物体交互的方式(How)、交互的位置(Where)。他们的研究表明可以从不同类型的神经数据中解码出这些信号。这些分解后的信号可以自然地对应于参数化的机器人技能,并且可以有效地传达给机器人。
研究人员利用机器人可以通过少量镜头学习人类选择的对象、技能和参数,因此,当人类在相似的环境中执行相同的任务时,可以减少人类的精力和时间。
我们基于检索的对象和技能选择模型如下所示。它可以学习观察结果的潜在表征。给定一个新的观察结果后,它会在记忆中找到最相关的经验,并选择相应的技能和对象。
我们的单次技能参数学习算法如下所示。它能根据训练图像中的参考点,在测试图像中找到语义对应点。特征可视化显示了所使用的 768 个 DINOv2 标记中的 3 个。
在 20 项涉及桌面或移动操作的家庭活动(包括制作寿喜烧、熨烫衣物、玩井字棋、摸机器狗狗等)中,三名人类受试者成功地使用了 NOIR 系统,即通过他们的大脑信号完成了这些任务!
其中 16 项活动(No.2 - No.17)是使用 Franka 的桌面操作任务,4 项活动(No.18 - No.21)是使用 Tiago 的移动操作任务。这些任务包括 8 项做饭任务、6 项清洁任务、3 项个人护理任务和 3 项娱乐任务。
NOIR具有增强人类能力的巨大潜力并为需要日常支持的个人提供关键的辅助技术。
NOIR代表了该领域的开拓性努力,揭示了潜在的机会,同时提出了关于其局限性和潜在道德风险的问题,例如目前的解码速度将任务限制在没有时间敏感交互的任务上。然而,神经信号解码领域的进步有望缓解这种担忧。此外,汇编一个全面的原始技能库提供了一个机器人技术的长期挑战,需要进一步的探索和开发。尽管如此我们坚持认为,一旦一套强大的技能被成功建立起来,人类用户确实会能够运用这些现有技能来完成新任务。
撰写:熊浩峰 罗伟贤
审稿:梁瑾
参考文献:
https://m.thepaper.cn/newsDetail_forward_25252097