Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

To Code or not to Code? Adaptive Tool Integration for Math Language Models via Expectation-Maximization

Created by
  • Haebom

저자

Haozhe Wang, Long Li, Chao Qu, Fengming Zhu, Weidi Xu, Wei Chu, Fangzhen Lin

개요

본 논문은 언어 모델(LM)을 이용한 수학 문제 해결의 최근 발전에 대해 다룹니다. 특히, 사고 과정(CoT) 추론과 코드 실행을 통합하여 상호 보완적인 강점을 활용하는 방법에 초점을 맞춥니다. 기존의 하이브리드 프레임워크는 외부에서 지시하는 명령이나 엄격한 코드 통합 템플릿에 의존하는 한계를 지니는데, 이는 메타인지적 인식, 즉 내재적 능력을 동적으로 평가하고 도구를 언제 어떻게 통합할지 자율적으로 결정하는 능력이 부족하기 때문입니다. 이러한 한계를 극복하기 위해 본 논문은 모델이 훈련 중 추론 능력이 발전함에 따라 도구 사용 전략을 적응할 수 있도록 하는 자율적인 코드 통합을 연구합니다. 강화 학습(RL)은 대규모 LLM 추론 향상에 유망하지만, CoT-코드 삽입 패턴의 방대한 조합 공간을 충분히 탐색하지 못하기 때문에 자율적인 코드 통합 학습에는 비효율적임을 보여줍니다. 이 문제를 해결하기 위해, 본 논문은 구조화된 탐색(E-step)과 오프-정책 RL 최적화(M-step)를 통합하는 새로운 기대-최대화(EM) 프레임워크를 제안합니다. 이는 메타인지적 도구 사용 결정과 발전하는 능력 사이의 자기 강화 순환을 만듭니다. 실험 결과, 제안된 방법은 향상된 탐색을 통해 우수한 결과를 달성함을 보여줍니다. 특히, 7B 모델은 o1과 같은 CoT 없이 MATH500에서 11% 이상, AIME에서 9.4% 향상되었습니다.

시사점, 한계점

시사점:
자율적인 코드 통합을 위한 새로운 EM 프레임워크를 제시하여 기존의 외부 지시에 의존하는 한계를 극복했습니다.
강화학습의 비효율성을 구조화된 탐색과 결합하여 해결함으로써, LLM의 수학 문제 해결 능력을 향상시켰습니다.
7B 모델에서 MATH500 및 AIME 데이터셋 상에서 유의미한 성능 향상을 달성했습니다.
메타인지적 도구 사용 전략의 중요성을 강조하고, 이를 향상시키는 효과적인 방법을 제시했습니다.
한계점:
제안된 EM 프레임워크의 일반화 성능에 대한 추가적인 연구가 필요합니다.
더욱 복잡하고 다양한 유형의 수학 문제에 대한 성능 평가가 필요합니다.
7B 모델 외 다른 크기의 모델에 대한 실험 결과가 부족합니다.
구조화된 탐색 전략의 설계 및 최적화에 대한 자세한 설명이 부족할 수 있습니다.
👍