团队的多模态表征学习成果被国际顶级会议ACM MM 2024(CCF A)录用
来源: 官全龙/
暨南大学
101
6
0
2024-10-12

   ACM MM 2024 (The 32nd ACM International Conference on Multimedia) 公布论文录用通知,团队的多模态表征学习论文成果被顺利录用。ACM MM(ACM International Conference on Multimedia)由国际计算机协会主办,是计算机科学领域中多媒体研究的国际顶级学术会议,也是中国计算机学会(CCF)推荐的计算机图形学与多媒体领域A类学术会议。会议旨在吸引多媒体、数据分析等领域的学者和专家,并为研究者提供一个共同探讨多媒体技术最新发展的交流平台。

 

说明: Brand

论文题目:Reason-and-Execute Prompting: Enhancing Multi-Modal Large Language Models for Solving Geometry Questions

 

论文概述:多模态大型语言模型(MM-LLMs)在各种视觉问答任务中表现出强大的推理能力。然而,在解决几何问题时,他们面临着缺乏严谨推理和精确算术的挑战。为了应对这一挑战,我们提出了一种新的提示方法,即推理与执行(R&E),以提高MM-LLMs解决几何问题的准确性。具体来说,R&E提示方法包括两个模板:推理模板和执行模板。具体来说,我们首先采用逆向思维方法来构建一个严格的推理模板,以便它引导MM-LLM从问题的最相关领域知识开始推理,并最终确定算术要求。然后,我们利用程序辅助思想构建执行模板,以指导MM-LLMs从推理模板中理解算术要求并生成可执行代码块。通过执行代码块最终获得答案。与思维链(CoT)和程序辅助语言(PAL)提示方法相比,我们基于6个真实数据集(包括4个几何数据集和2个科学数据集)在9个MM-LLMs上评估了R&E提示方法。与CoT和PAL相比,R&E方法在问题的回答正确率上提高了12.8%,为解决几何问题提供了强大的推理和算术能力。此外,我们还从解决几何问题的不同角度进一步分析了影响答****性的因素,包括领域知识、几何形状、问题长度和语言。


登录用户可以查看和发表评论, 请前往  登录 或  注册
SCHOLAT.com 学者网
免责声明 | 关于我们 | 联系我们
联系我们: