Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation

Created by
  • Haebom

저자

Sadegh Mahdavi, Muchen Li, Kaiwen Liu, Christos Thrampoulidis, Leonid Sigal, Renjie Liao

개요

본 논문은 대규모 언어 모델(LLM)의 수학적 추론 능력 향상을 위해, 아르트 오브 프라블럼 솔빙(AoPS) 포럼의 방대한 자료를 활용하여 60만 개 이상의 고품질 질문-답변 쌍으로 구성된 AoPS-Instruct 데이터셋을 자동화된 파이프라인을 통해 구축한 연구를 제시합니다. AoPS-Instruct 데이터셋으로 LLM을 미세 조정한 결과, 다양한 벤치마크에서 추론 능력이 향상됨을 보였습니다. 또한, AoPS 포럼의 최신 데이터를 기반으로 오염에 강한 새로운 벤치마크인 LiveAoPSBench를 개발하여 LLM 성능을 평가했습니다. LiveAoPSBench를 통해 시간 경과에 따른 LLM 성능 저하를 관찰하여, 기존 벤치마크에서의 성공이 사전 학습 데이터 노출 때문일 가능성을 제시합니다. 본 연구는 고급 수학 추론을 위한 대규모 고품질 데이터셋을 생성 및 유지 관리하는 확장 가능한 접근 방식을 제시하며, 이 분야에서 LLM의 능력과 한계에 대한 귀중한 통찰력을 제공합니다.

시사점, 한계점

시사점:
AoPS 포럼 데이터를 활용한 대규모 고품질 수학 문제 풀이 데이터셋 AoPS-Instruct 구축.
AoPS-Instruct를 이용한 LLM 미세 조정으로 수학 추론 능력 향상 확인.
시간에 따라 변화하는 벤치마크 LiveAoPSBench 개발 및 LLM 성능 저하 현상 발견.
LLM의 진정한 추론 능력 평가에 대한 새로운 관점 제시.
확장 가능한 데이터셋 생성 및 유지 관리 방식 제시.
한계점:
AoPS 포럼 데이터의 편향성에 대한 고려 필요.
LiveAoPSBench의 지속적인 관리 및 유지보수 필요.
LLM의 추론 능력 저하 원인에 대한 추가 연구 필요.
AoPS 포럼 데이터만을 사용하여 일반화 가능성에 대한 한계 존재.
👍