YOCSEF广州举办智绘具身智能:解锁具身智能科研新思路(学生分会预备论坛)
21
2025-03-28 23:31:21
2
0
0
用微信扫描二维码

具身智能以不同形态机器人在真实物理环境下执行任务为主要方式实现AI进化,具备自感知、自认知、自决策、自执行、自学习等特征,被认为是AI发展的下一个浪潮。由中国计算机学会(CCF)主办,CCF学生分会工作组以及CCF YOCSEF广州分论坛联合指导CCF中山大学学生分会,特别举办了“智绘具身智能:解锁具身智能科研新思路(学生分会前站论坛)”,本次论坛旨在从学生一线科研视角,探讨具身智能技术的最新发展、未来研究趋势以及不同方向的研究者如何从人工智能研究切入具身智能前沿方向等关键问题,为启发具身智能核心技术创新与突破提供前瞻性的思考和建议。活动于10月20日在中山大学计算机学院成功举行。

出席本次活动的嘉宾包括中山大学计算机学院教授、国家优秀青年基金获得者、CCF YOCSEF广州主席李冠彬,中山大学计算机学院副教授、CCF中大学生分会督导主任王昌栋,中山大学计算机学院副教授胡建芳,香港科技大学(广州)人工智能学域助理教授梁俊卫以及上海科技大学研究员、助理教授杨思蓓。本次活动邀请了香港大学博士生赵赣龙、香港科技大学(广州)博士生马特立、中山大学博士生卫奕霖作为引导发言嘉宾,邀请了中山大学博士生曾逸明、香港科技大学(广州)博士生周佳明、香港中文大学(深圳)博士后韩亚潼作为论坛思辨嘉宾。借由三位引导发言嘉宾的分享以及三位论坛思辨嘉宾的精彩发言,为同学们共同呈现了一场内容丰富、思辨激烈、干货满满的学术论坛。参与本次活动的学生分会有华南农业大学学生分会、广东工业大学学生分会、华南理工大学学生分会、中山大学学生分会、华南师范大学学生分会、广东外语外贸大学学生分会等。本次论坛的主持人为CCF中山大学学生分会主席陈曼笙和中山大学计算机学院博士生陈卫兴

 

论坛的开场由中山大学计算机学院副教授、CCF中大学生分会督导主任王昌栋致辞。他提出虽然CCF中山大学学生分会的成立时间只有四年多时间,但是在这四年时间里,成功举办了多个由广州推广至全国的活动,例如CCF优秀大学生学术秀以及二级论坛联动模式等。他对所有与会嘉宾、教授表示热烈的欢迎和衷心感谢,希望通过本次论坛,深入探讨具身智能科研的新思路,为即将到来的中国计算机大会CNCC主论坛做好预热铺垫

 

致辞环节之后,论坛进入引导发言环节。本次论坛邀请到的三位引导发言嘉宾分别作了题为“迭代式视觉语言导航中的结构化场景记忆”、“自然语言驱动的机械臂操作——从多任务到开放式任务”、“机器人灵巧抓取生成”的分享。

来自香港大学的博士生赵赣龙以“迭代式视觉语言导航中的结构化场景记忆”为题,从迭代式视觉语言导航(IVLN)的发展历程到IVLN的智能体等技术细节进行了介绍。迭代式视觉语言导航认为,在人类工作环境中持续工作的智能体应当随着时间的推移和经验的积累逐步提高性能表现。因此,IVLN智能体需要利用当前旅程中的导航历史帮助当前指令的导航任务执行。引导发言嘉宾赵赣龙讨论了结构化场景记忆对于模型性能的重要性,以及如何通过结构化记忆来提高模型的学习和表达能力。他提出抛弃传统基于封闭词汇表检测分割的范式,转为基于开放词汇表的Omnigraph构建方法,借助大语言模型抽取指令中的关键词后在全景中发现关键词对应的物体辅助导航。

 

来自香港科技大学(广州)的博士生马特立以“自然语言驱动的机械臂操作——从多任务到开放式任务”为题,从自然语言的重要性引入,讲述了自然语言驱动的机械臂操作的可行性以及具体实现方法。他提出,自然语言驱动的机械臂操作有着重要的研究意义和应用价值,因为通过自然语言对机器人发出指令能够更好地对齐用户的习惯和需求。引导发言嘉宾马特立分享了他们团队的两篇工作。第一篇是基于对比模仿学习的语言驱动多任务机器人操作。该工作通过将自然语言指令和深度相机观测数据训练机器人学习一个操作策略,以此控制关节的输出和夹爪状态。第二篇工作在前一篇的基础上,借助大语言模型使得机器人能够和人类一样精准地区分物体的种类、定位物体位置、判断需要抓取的物体局部部件。

 

来自中山大学的博士生卫奕霖以“机器人灵巧抓取生成”为题,分享了机器人灵巧抓取的相关研究进展。引导发言嘉宾卫奕霖团队的一篇工作聚焦于判别式的灵巧抓取生成任务。现有的主流方法采用生成模型来生成不同的抓取位姿,而他们创新性地提出利用判别式的框架,将抓取生成建模为一个集合预测问题,通过一个两阶段优化策略训练机械臂。该团队的另一篇工作提出,现有的灵巧抓取主要集中于无语义的稳定抓取,或者固定任务导向的功能性抓取,这种方式不够灵活,人机交互不够友好。因此,他们提出一个新任务,即语言引导的灵巧抓取生成。提出的方法采用两阶段框架,生成式模型负责意图对齐和多样性生成,而判别式模型负责提高抓取质量。最后,他还总结了灵巧抓取生成未来的五个热点研究方向。

 

接着,参与论坛的各位老师、嘉宾以及各个学生分会代表对于三个思辨点充分发表了自己的看法,深入交流了自己对于具身智能科研选题、解题和创新的思考和见解。

思辨1遇见“具身智能”,研究者应如何选题

对于这个议题,大部分博士生认为,对于一个新入门具身智能想要发表学术论文的研究者,可以先跟随大组的研究方向和最新发表的成果,通过复现他们的工作来上手,总结过去的研究经验,然后再从实际问题出发找到适合自己的选题。对此,梁俊卫老师补充道,在学术界与工业界做研究不同。学术界的研究周期一般比较长,而工业界则需要做快速落地的工业场景应用。二者的需求不同,因此也需要用不同的方法。

引导发言嘉宾马特立提出,目前具身智能领域主要有两类研究者,做计算机视觉的人更倾向于从“智能”方面入手,而做传统机器人的研究者更容易从“具身”角度切入。这两个领域的研究者应该加强相互交流、相互借鉴学习。

在这个议题上,参会的各位老师和博士生代表们讨论了如何选择合适的课题,包括考虑自身的研究背景、国内外知名大组的研究方向等。参会者分享了各自的研究方向和思考,同时也探讨了在学术界和企业中选题的不同方式。

 

思辨2借力“具身智能”,如何做出开创性的工作

对于这个议题,杨思蓓老师首先提出,如何发现和定义一个新问题是能否做出开创性工作的关键。思辨嘉宾曾逸明对杨老师的观点表示高度认同。他提出做研究不仅要追求新颖度,更需要注重于研发基础模型的通用性,能够解决一系列的问题。现有的开创性工作都是很难啃的硬骨头,想要解决的问题都比较难,因此需要长期的积累和努力。

思辨嘉宾周佳明补充道,我们更应该追求做出有意义的工作。一个有意义的工作首先是问题要足够大、足够有影响力,能够启发这个领域的后续研究。比如说,具身智能领域目前缺乏一个通用的数据集,如果能够构建一个好用的数据集,能够助力更多优秀研究出现就是非常有意义的工作。

在这个议题上,与会嘉宾们针对开创性这个话题进行了深入讨论。大家一致同意的是,具身智能是一个非常有潜力的研究方向,是当前的研究热点。然而正因为是热点,想要做出具有开创性的工作也很有挑战。各位老师和博士生代表们对想要进入具身智能领域的同学提出了非常多具有建设性的意见,让新入门的研究者们可以少走弯路,做出有意义、有创新、有影响力的工作。

 

思辨3如何解锁具身智能追热点的正确姿势

对于这个议题,在场的博士生们大多认为,判断一个热点该不该追、值不值得追,必须要首先要对整个研究领域有整体的了解,并判断能否用以解决自己工作中的问题和挑战。

引导发言嘉宾赵赣龙表示,现在的科研工作需要多领域合作,用多种方法共同解决挑战。即使是不熟悉具身智能的人,也能在其中找到自己熟悉领域的用武之地。这对于研究者来说既是挑战也是优势,可以通过一个不同的视角来切入到具身智能这个领域。

李冠彬老师对各位博士生的发言做了总结,并补充道如果想要追上具身智能这个热点,首先需要充分了解具身智能这个领域,比如说可以通过阅读综述等相关文献。在决定要进入这个领域之后,就要去思考这个领域还有什么更深入的、尚未解决且自己可以做的问题,一旦选定了问题之后就要专注不断深入,不要经常中途换方向。在一段时间后要形成自己一系列的问题和工作,开创自己研究的一个系统体系,慢慢地让自己的研究被更多人跟随,扩大自己的影响力。当我们一直在这个领域深耕、一直思考这个领域有哪些问题、有什么特点,我们就越能做出有影响力、有开创性的工作。最后,梁俊卫老师还补充道,除了阅读综述论文,积极在网上搜寻咨询也是入门具身智能科研的好方法。

 

    

 

参与论坛的每位嘉宾都对本次论坛议题发表了各自的看法,论坛思辨现场讨论热烈。此次论坛历时近小时,广州分论坛主席李冠彬对此次论坛进行了总结并再次对与会嘉宾表示感谢。他总结到本次论坛深入讨论了具身智能的三个方面,并且各位与会嘉宾结合自身的研究经验对具身智能领域的前沿研究选题和科研方法提出了深入的见解。最后,论坛在一片热烈的讨论氛围中圆满结束。

 

 


SCHOLAT.com 学者网
免责声明 | 关于我们 | 用户反馈
联系我们: