团队的多模态表征学习成果被国际顶级会议ACM MM 2024（CCF A）录用

来源: 官全龙/

暨南大学

101

2024-10-12 22:46:51

2024-10-12

ACM MM 2024 (The 32nd ACM International Conference on Multimedia) 公布论文录用通知，团队的多模态表征学习论文成果被顺利录用。ACM MM(ACM International Conference on Multimedia)由国际计算机协会主办，是计算机科学领域中多媒体研究的国际顶级学术会议，也是中国计算机学会（CCF）推荐的计算机图形学与多媒体领域A类学术会议。会议旨在吸引多媒体、数据分析等领域的学者和专家，并为研究者提供一个共同探讨多媒体技术最新发展的交流平台。

说明: Brand

论文题目：Reason-and-Execute Prompting: Enhancing Multi-Modal Large Language Models for Solving Geometry Questions

论文概述：多模态大型语言模型（MM-LLMs）在各种视觉问答任务中表现出强大的推理能力。然而，在解决几何问题时，他们面临着缺乏严谨推理和精确算术的挑战。为了应对这一挑战，我们提出了一种新的提示方法，即推理与执行（R&E），以提高MM-LLMs解决几何问题的准确性。具体来说，R&E提示方法包括两个模板：推理模板和执行模板。具体来说，我们首先采用逆向思维方法来构建一个严格的推理模板，以便它引导MM-LLM从问题的最相关领域知识开始推理，并最终确定算术要求。然后，我们利用程序辅助思想构建执行模板，以指导MM-LLMs从推理模板中理解算术要求并生成可执行代码块。通过执行代码块最终获得答案。与思维链（CoT）和程序辅助语言（PAL）提示方法相比，我们基于6个真实数据集（包括4个几何数据集和2个科学数据集）在9个MM-LLMs上评估了R&E提示方法。与CoT和PAL相比，R&E方法在问题的回答正确率上提高了12.8%，为解决几何问题提供了强大的推理和算术能力。此外，我们还从解决几何问题的不同角度进一步分析了影响答****性的因素，包括领域知识、几何形状、问题长度和语言。

登录用户可以查看和发表评论，请前往登录或注册。