Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

An Investigation of Robustness of LLMs in Mathematical Reasoning: Benchmarking with Mathematically-Equivalent Transformation of Advanced Mathematical Problems

Created by
  • Haebom

저자

Yuren Hao, Xiang Wan, ChengXiang Zhai

LLMs의 수학적 추론 능력 평가를 위한 새로운 방법론

개요

본 논문에서는 언어적 및 매개변수적 변화를 통해 수학적으로 동등하지만 다른 고급 수학 문제들을 통해 LLM(Large Language Models)의 수학적 추론 능력을 스트레스 테스트하는 체계적인 프레임워크를 소개합니다. 이러한 변환을 통해 LLM의 비수학적 방해 요소에 대한 민감도를 측정하여 수학적 추론 능력을 보다 정확하게 평가할 수 있습니다. 새로운 평가 방법론을 사용하여 경쟁 수준의 수학 문제에 대한 여러 수학적으로 동등한 변형을 포함하는 새로운 벤치마크 데이터 세트인 PutnamGAP를 제작했습니다. 새로운 데이터 세트를 사용하여 여러 대표적인 LLM 제품군을 평가하고 견고성을 조사했습니다. 18개의 상업용 및 오픈 소스 모델에서 변형에 대한 급격한 성능 저하가 관찰되었습니다. OpenAI의 주력 추론 모델인 O3는 원본에서 51.5%를 기록했지만, 표면 이름 변경 변형에서 4.7% 포인트, 매개변수 변형에서 12.9% 포인트 하락했으며, 더 작은 모델은 훨씬 더 나쁜 결과를 보였습니다. 전반적으로, 결과는 제안된 새로운 평가 방법론이 LLM의 견고성에 대한 이해를 심화시키고 수학적 추론 능력을 더욱 향상시키기 위한 새로운 통찰력을 생성하는 데 효과적임을 보여줍니다.

시사점, 한계점

시사점:
LLM의 수학적 추론 능력을 평가하기 위한 새로운 방법론 제시.
PutnamGAP라는 새로운 벤치마크 데이터 세트 개발.
다양한 LLM 모델의 수학적 추론 능력의 취약성을 발견.
LLM의 수학적 추론 능력 향상을 위한 새로운 통찰력 제공.
한계점:
구체적인 한계점에 대한 정보는 논문 초록에 명시되어 있지 않음. (더 자세한 내용은 논문을 직접 참고해야 함)
👍