Sign In

TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding

Created by
  • Haebom
Category
Empty

저자

Max Ku, Thomas Chong, Jonathan Leung, Krish Shah, Alvin Yu, Wenhu Chen

개요

본 논문은 수학 정리에 대한 장문의 시각적 설명 비디오 생성을 위한 에이전트 기반 접근법인 TheoremExplainAgent를 제시합니다. Manim 애니메이션을 사용하여 5분 이상의 비디오를 생성하며, 다양한 STEM 분야의 240개 정리로 구성된 벤치마크 TheoremExplainBench를 함께 제안합니다. TheoremExplainAgent는 에이전트 계획의 중요성을 보여주며, o3-mini 에이전트는 93.8%의 성공률과 0.77의 종합 점수를 달성했습니다. 하지만 시각적 요소 배치에 대한 사소한 문제점들이 발견되었고, 다중 모드 설명이 텍스트 기반 설명에서는 드러나지 않는 추론상의 결함을 드러내는 것을 확인했습니다.

시사점, 한계점

시사점:
에이전트 기반 접근법을 통해 장문의 수학 정리 설명 비디오 생성 가능성을 보여줌.
TheoremExplainBench라는 새로운 벤치마크를 제시하여 다중 모드 정리 설명 평가 가능.
다중 모달 설명이 텍스트 기반 설명보다 더 깊은 추론상의 결함을 드러낼 수 있음을 증명.
o3-mini 에이전트의 높은 성공률 (93.8%)과 상대적으로 높은 종합 점수 (0.77) 달성.
한계점:
생성된 비디오의 시각적 요소 배치에 대한 사소한 문제점 존재.
정량적 및 정성적 평가 결과에도 불구하고, 시각적 설명의 질적 향상을 위한 추가 연구 필요.
👍