ACM MM 2024 (The 32nd ACM International Conference on Multimedia) 公布論文錄用通知,團隊的多模態表征學習論文成果被順利錄用。ACM MM(ACM International Conference on Multimedia)由國際計算機協會主辦,是計算機科學領域中多媒體研究的國際頂級學術會議,也是中國計算機學會(CCF)推薦的計算機圖形學與多媒體領域A類學術會議。會議旨在吸引多媒體、數據分析等領域的學者和專家,并為研究者提供一個共同探討多媒體技術最新發展的交流平臺。
論文題目:Reason-and-Execute Prompting: Enhancing Multi-Modal Large Language Models for Solving Geometry Questions
論文概述:多模態大型語言模型(MM-LLMs)在各種視覺問答任務中表現出強大的推理能力。然而,在解決幾何問題時,他們面臨著缺乏嚴謹推理和精確算術的挑戰。為了應對這一挑戰,我們提出了一種新的提示方法,即推理與執行(R&E),以提高MM-LLMs解決幾何問題的準確性。具體來說,R&E提示方法包括兩個模板:推理模板和執行模板。具體來說,我們首先采用逆向思維方法來構建一個嚴格的推理模板,以便它引導MM-LLM從問題的最相關領域知識開始推理,并最終確定算術要求。然后,我們利用程序輔助思想構建執行模板,以指導MM-LLMs從推理模板中理解算術要求并生成可執行代碼塊。通過執行代碼塊最終獲得答案。與思維鏈(CoT)和程序輔助語言(PAL)提示方法相比,我們基于6個真實數據集(包括4個幾何數據集和2個科學數據集)在9個MM-LLMs上評估了R&E提示方法。與CoT和PAL相比,R&E方法在問題的回答正確率上提高了12.8%,為解決幾何問題提供了強大的推理和算術能力。此外,我們還從解決幾何問題的不同角度進一步分析了影響答****性的因素,包括領域知識、幾何形狀、問題長度和語言。