随着人工智能(AI)技术的不断发展,通用人工智能(AGI)成为了研究者和企业追求的终极目标。然而,实现AGI的难度极大,需要克服众多技术难题。具身智能强调将智能与实体世界紧密结合,通过感知、认知和行动的统一来实现对环境的适应和应对。这种理念克服了传统AI的局限,使得机器能够更好地理解、感知和适应真实世界,被认为是通向AGI的最后一公里。本次论坛旨在探讨具身智能对AGI发展的影响和未来前景,通过多角度、多层次的讨论,深入分析具身智能与身具智能各自的优劣,并探讨其对AGI研究的启示和挑战。
本次论坛由中国计算机学会(CCF)主办,CCF青年计算机科技论坛(YOCSEF)广州分论坛学术委员会承办,广州唐邦信息科技有限公司提供赞助支持,YOCSEF广州AC委员、中山大学计算机学院胡建芳副教授和YOCSEF广州学术秘书、广东外语外贸大学姜思羽副教授共同担任执行主席。论坛邀请了中山大学计算机学院教授成慧、深圳大学特聘教授胡瑞珍、华南理工大学教授张智军以及香港科技大学(广州)人工智能学域助理教授梁俊卫作为引导发言嘉宾,华南理工大学研究员丁长兴、南方科技大学副教授郑锋以及上海科技大学助理教授杨思蓓作为论坛思辨嘉宾。
YOCSEF总部副主席陈小军(深圳大学),YOCSEF广州前主席黄书强(暨南大学)、余志文(华南理工大学)、谭台哲(广东工业大学),YOCSEF广州现任主席李冠彬(中山大学), YOCSEF广州AC委员刘伟莉(广东技术师范大学)、姚恩义(华南理工大学)等,以及来自多所高校及企事业单位的林倞(中山大学教授、国家杰青)、王旭(深圳大学)、王子佳(广州大学)、吴汉瑞(暨南大学)、余自如(华南理工大学)等共50多人参加了本次技术论坛。
首先,由中山大学计算机学院副教授胡建芳进行论坛开场,介绍了出席论坛的嘉宾和关于此次论坛活动的背景和意义。接下来是陈小军(深圳大学)进行论坛致辞,介绍了CCF YOCSEF文化。
执行主席胡建芳老师论坛开场介绍
深圳大学陈小军致辞并介绍CCF YOCSEF文化
在致辞环节之后,论坛进入引导发言环节。本次论坛邀请到的四位引导发言嘉宾分别作了题为“单机自主与多机协同”、“智能体交互行为规划与生成”、“机器人多模态感知与运动动态神经学习方法研究” 、“面向通用服务的具身智能”的分享。
来自中山大学计算机学院教授成慧以“单机自主与多机协同”为题,介绍了单机自主与多机协同探索在复杂环境中的应用,分享了机器人在未知环境中的自主决策和探索能力,尤其是移动机器人如何利用感知和计算能力自主完成任务。讨论了机器人在复杂环境中主动探索的技术挑战,包括环境感知、空间移动能力、决策效率和计算资源的限制。还展示了通过实验验证的自主探索算法应用,涵盖地面机器人、无人机和多机器人协同工作。他特别强调了在真实环境中,机器人如何应对外部不确定因素(如气流、摩擦力)对其控制精度和安全性的影响,提出了结合控制理论和机器学习的自主学习控制策略,以提升机器人的自主适应能力和任务执行稳定性。
中山大学计算机学院教授成慧做引导报告
来自深圳大学特聘教授胡瑞珍以“智能体交互行为规划与生成”为题,重点介绍了虚拟空间中的智能体交互和规划。强调了交互在具身智能中的重要性,特别是在虚拟环境中的任务规划和执行。首先探讨了高层任务规划,即如何根据虚拟环境中的感知信息合理分解任务,确保任务的合理性和可执行性。通过图结构动态更新感知信息和大模型理解任务,可以保证任务在虚拟环境中的执行。最后老师还强调在智能体交互生成中的几何空间关系,如智能体如何精确抓取物体、避免物理碰撞等。通过合理的任务规划和精确的交互生成,实现智能体在虚拟环境中的自然交互。
深圳大学特聘教授胡瑞珍做引导报告
来自华南理工大学教授张智军以“机器人多模态感知与运动动态神经学习方法研究”为题,集中探讨了多模态感知与运动控制在机器人智能中的关键作用。他首先介绍了一种结合脑电波、视觉、语音等多模态感知信号的机器人控制系统。这个系统通过多种感知渠道来获取外部环境的信息,然后利用这些信息来控制机器人的动作和行为。他特别强调了脑电波的信号处理,这是一种通过提取大脑活动来直接控制机器人的方法。这种控制方式体现了智能体与人类之间的高效交互,特别是在养老、残疾人辅助等应用场景中,为那些有运动障碍的个体提供了独立和有尊严的生活方式。此外,他还提到了交互式增长学习,这是一种通过人机互动来提高机器学习模型的方法。例如,当机器人做出正确的决策时,人类可以给予正面反馈;当决策错误时,则给予修正。这种方法能够大幅度提升机器人的自我学习能力,使其在交互过程中逐渐优化任务执行效率。专家特别提到,他们已经通过实物实验验证了该系统的有效性,显示了这一多模态感知系统在实际应用中的巨大潜力。
华南理工大学教授张智军做引导报告
来自香港科技大学(广州) 助理教授梁俊卫以“面向通用服务的具身智能”为题,讲到机器人在通用服务场景下的智能感知与预测能力,特别是社交导航领域的前沿研究。他首先提出了一个基于视觉和语言大模型的导航方法,称为“实例导航”(Instagram Instance Navigation)。这一方法的核心在于如何让机器人依赖视觉和语言输入,在无地图的情况下自主进行目标导航。传统导航方法通常依赖简单的视觉输入和固定的目标物体,但实例导航任务要求机器人能够根据复杂的自然语言描述找到特定的目标物体。例如,机器人不仅要找到一个沙发,还需要根据描述找到特定的黑色皮质沙发,并且能够准确定位到沙发在房间中的位置。这个任务显著提高了机器人对语言理解和视觉处理的要求,也为导航算法的设计带来了新的挑战。还提出了“社交导航”这一概念。社交导航的难点在于,机器人不仅要避免与人类行人发生碰撞,还需要考虑到人类的社交舒适度,例如机器人不能挡在行人的正前方,或者让人类感到不适。通过引入社交导航的任务,机器人必须能够预测行人的移动轨迹,并且合理规划自己的路径以避免干扰人类的正常活动。专家还展示了通过强化学习训练的社交导航系统,该系统能够在复杂的室内环境中导航,同时避开人类行人,甚至能够主动为行人让路。这一工作展示了未来服务机器人在人类环境中的广泛应用潜力,尤其是在公共场所或家庭服务中,能够极大地提升人机交互的自然性与安全性。
香港科技大学(广州) 助理教授梁俊卫做引导报告
颁发引导报告嘉宾感谢状
由论坛执行主席胡建芳、姜思羽主持进入论坛思辨环节
思辨议题1:具身与智能该如何发展,具身先行,智能先行,还是同行并进?
延伸议题1:具身与智能两者之间有何区别和关联?
延伸议题2:发展具身与发展智能分别需要哪些条件?
这个议题,由华南理工大学研究员丁长兴老师进行发言,他提出具身和智能技术是两者独立发展的观点。他认为具身和智能在过去的研究中各自独立发展,彼此并无明显的融合。具身更多关注硬件和运动能力,智能则侧重于决策和认知层面。当两者发展到一定阶段,才会形成互补的关系。在这个过程中,智能可以帮助机器人更好地理解人类的复杂意图,具身则可以通过交互产生更多的学习数据,推动智能系统进一步发展。其次他认为智能和技术应该是各自发展到一定阶段之后,融合成了一个新的形态,在这个形态里面具身和智能应该是各自起到了一个硬件和软件的作用,他们取得的角色或者作用是不一样的。具身和智能应该是一个相互促进循环迭代的一个关系。随后中山大学林倞老师发言,他认为智能应该先行,他坚持主张智能优先发展的立场。他指出,正是由于近年来智能技术特别是大模型的发展,才使得具身智能成为焦点。如果没有智能的突破,具身技术也不会引起如此大的关注。他认为,智能的快速发展可以为硬件和具身的进步提供更好的支持,智能的发展会带动具身技术的进步,从而推动整个机器人领域的发展。但来自广东工业大学谭台哲老师对林倞老师提出不同的观点,他认为机器人要想具有人工智能的能力,即实现某些特定的任务首先要有硬件,有了硬件的基础才能针对性适配其能力和方法,因此具身智能应该具身先行。华南理工大学余志文老师也认为具身技术应优先发展,他指出当前机器人的身体灵活性和运动能力与人类仍存在很大差距,而智能技术已经发展到相对高的水平,因此具身技术的发展应加快步伐。他认为,具身技术是实现机器人实际应用的关键,而不是继续推进智能技术的突破。来自广东技术师范大学刘伟莉老师提出了动态发展的观点。她认为,具身和智能并不是线性发展或绝对的先后关系,而是在不同阶段根据需要进行分离和融合。两者在某些阶段可能会相互独立发展,但当发展到一定阶段后,又会彼此促进,最终推动具身智能的共同进步。她形容这种关系为“合而分,分而合”,强调智能和具身的互动和共进。中山大学成慧老师从多学科交叉的角度探讨了具身智能现有的研究模式,她指出,机器人作为一个交叉学科,涉及到的领域非常广泛,包括机械、计算机、材料、电子等多个方向。她强调,人工智能的迅速发展,尤其是大模型的出现,降低了技术的门槛,使得更多研究者能够参与到这一领域。这种研究方式的变化使得具身智能的发展得以加速,因此她认为,具身和智能技术应当齐头并进,不能分离看待。
在这个议题上,参会的各位老师都分别发表了自己的观点,有人认为智能先行,也有人认为应该具身先行,还有人认为具身智能是一种动态发展的过程。由于大模型和深度学习技术的快速发展,智能领域已经展示了其强大的能力,即使硬件具备极高的灵活性,如果没有智能技术的支持,也无法完成复杂任务。也有老师提出具身智能是一个双螺旋式发展的过程,对于具身在链条的前面还是智能在链条的前面的问题,就是仁者见仁,智者见智,是一种相互促进相互影响的一种方式。
华南理工大学研究员丁长兴做思辨发言
思辨议题2:具身智能的哪种发展路径对AGI更有潜力?
延伸议题1:AGI的实现是否一定需要具身智能?
延伸议题2:具身智能可以为AGI提供哪些便利?
对于这个议题,由南方科技大学副教授郑锋首先发言,他强调在实现通用人工智能(AGI)的路径中,智能比具身更为重要。虽然从应用角度看,硬件和具身技术显得关键,但从实现AGI的角度,统一的数据和模型才是核心步骤。他认为通用模型的发展并不一定依赖具身智能,尤其是在数字空间中,智能已经可以接近人类智能。其次也指出未来的AGI可能不局限于具身形态,数字空间中的智能体或许能够指导具身系统的发展,并最终形成多种形式的智能体,甚至不需要具备与人类相同的物理形态。接下来林倞老师再次提出了智能优先的观点,认为人工智能尤其是大模型的发展为AGI的突破奠定了基础。他认为,智能技术的快速发展可以为AGI的实现提供更多的可能性。林老师指出,当前许多机器人硬件虽然足够先进,但智能不足以完成复杂任务,因此优先发展智能技术可以提升具身系统的整体能力。智能先行能够更快影响AGI的发展。他也强调AGI的实现一定需要具身智能,虚实融合能为AGI提供最大的便利。胡瑞珍老师也认为虚实融合是最能促进AGI的进步,人类的智能是通过跟环境的交互不停增长的,要去实现AGI并演化出人类的这种智能,就只能与环境进行交互学习。余志文老师则坚持具身的发展路径对AGI更有潜力,他认为,AGI的真正实现依赖于智能体对真实环境的充分理解和适应,而具身技术的进展能让机器人更好地与物理世界交互。因此,具身技术应加快发展,以帮助AGI在更复杂的物理环境中表现出色。智能技术固然重要,但没有具身的支持,AGI将无法在物理世界中有效应用。陈小军老师提出了不一样的观点,他强调智能与身体的关联,但也探讨了智能可能脱离物理载体的可能性。也指出当前的具身智能主要基于我们对物理世界的理解,但未来智能或许可以脱离肉身,进入更抽象的层面。他通过类比AGI的进化,提出智能可能不再局限于物理世界,而是可以扩展到数字空间或网络空间中。尽管这个观点看似天马行空,但他认为在网络空间中,智能同样可以展现出高度的自主性和复杂性,无需依赖具体的物理实体。
在这个议题上,嘉宾们针对具身智能如何促进AGI发展这个话题进行了深入讨论。在这个议题的讨论中,大家提出了很多对通用人工智能(AGI)和具身智能发展路径的观点。AGI的实现依赖于统一的数据和模型,且通用模型的发展不一定依赖具身智能,数字空间中的智能体有可能引导具身系统的发展,甚至不需要具备物理形态。其次AGI需要对物理环境有充分理解,具身技术的进展能够增强智能体与物理世界的互动,推动AGI在复杂环境中发挥作用。
南方科技大学副教授郑锋思辨发言
思辨议题3:具身智能最有可能落地的场景及时间点是什么?
延伸议题1:具身智能落地需要克服哪些困难,技术、法律、伦理等?
延伸议题2:具身智能与人类智能是否会有冲突,如何解决?
对于这个议题,上海科技大学助理教授杨思蓓认为自动驾驶是具身智能最先有可能规模化落地的场景。她认为,虽然自动驾驶看似与具身智能无关,但实际上汽车可以视作智能体的一个载体。特斯拉的自动驾驶系统不仅是为了驾驶汽车,而是为发展通用型智能体提供数据和技术支持。杨老师强调,自动驾驶技术的发展路径对于其它智能体(如机械狗或人形机器人)具有借鉴意义。胡瑞珍老师针对具身智能的定义提出观点,认为目前的应用大多是针对特定任务设计的专用系统,而不是具备通用能力的智能体。她指出,实现具身智能落地需要确保载体能够在多种任务中泛化,认为具身智能要在不同任务中通用可能还需要很长时间,并且目前的工业应用更侧重于特定场景的智能化。香港科技大学(广州)梁俊卫老师补充到,虽然目前机器人产业百花齐放,但最终可能会形成几家主导公司,这与其它行业如汽车或计算机领域的发展轨迹相似。他还强调,机器人领域的供应链非常长,不太可能由一家公司独占鳌头。未来的机器人将由本体制造商和自动化公司共同合作,前者负责硬件设计,后者负责应用场景的实现,例如养老、康复等。
在这个议题上有专家认为自动驾驶是具身智能最有可能落地的一个场景,虽然人形机器人是具身智能的理想载体,但其技术尚未成熟。部分专家指出人形机器人虽然功能强大,但在法律、伦理和成本方面的障碍阻碍了其商业化进程。但也有专家认为仿身人形机器人是最有可能落地的一个场景。与会专家从不同的角度探讨了具身智能与通用人工智能的关系,包括涉及到伦理问题、未来的场景化应用以及如何降低成本使技术普及等。与会专家普遍认为,具身智能在未来几年可能会逐步落地,尤其是在工业和特定服务领域,而人形机器人在实际应用中仍面临许多挑战,特别是成本和伦理的问题。
上海科技大学助理教授杨思蓓思辨发言
嘉宾就思辨议题发表看法
颁发思辨发言嘉宾感谢状
论坛思辨现场讨论热烈,此次论坛历时近两小时,围绕具身智能的发展路径、技术挑战及应用场景展开了深入探讨,涵盖了具身智能发展过程中的技术、产业、应用和伦理问题。与会嘉宾普遍认为,具身智能与AGI的实现需要智能和具身技术的相互促进,未来具身智能将广泛应用于自动驾驶、工业、家庭服务等场景,同时面临着产业整合与伦理挑战。
全体嘉宾合影留念