Next-Token Prediction Task Assumes Optimal Data Ordering for LLM Training in Proof Generation
Created by
Haebom
저자
Chenyang An, Shima Imani, Feng Yao, Chengyu Dong, Ali Abbasi, Harsh Shrivastava, Samuel Buss, Jingbo Shang, Gayathri Mahalingam, Pramod Sharma, Maurice Diesendruck
개요
본 논문은 대규모 언어 모델(LLM) 기반 증명 생성 분야에서 LLM의 성능이 기대치에 미치지 못하는 원인을 데이터의 비최적 순서에 있다고 주장한다. 기존 증명 데이터는 검증 용이성을 위해 논리적 순서로 정렬되어 있지만, 모델 학습에는 증명 발견 과정에 유용한 '직관적으로 순차적인 순서'가 더 효과적이라고 제시한다. 직관적으로 순차적인 순서는 특정 증명 단계에 필요한 중간 지도 정보가 해당 단계보다 앞에 위치하는 순서를 의미한다. 직관적 순차적 순서의 효과는 직관 논리 정리 증명과 자릿수 곱셈 두 가지 작업에서 검증되었으며, 최적 순서로 학습된 모델이 최악의 순서로 학습된 모델보다 증명 성공률이 최대 11% 향상되는 결과를 보였다. 또한, 고급 수학 증명에서 흔히 나타나는 순서 문제를 정의하고, 대학원 수준 수학 교재의 처음 두 장에 있는 비자명한 증명 중 17.3%가 이 문제를 가지고 있음을 밝혔다.
시사점, 한계점
•
시사점: LLM 기반 증명 생성의 성능 향상을 위해서는 학습 데이터의 순서를 고려해야 함을 보여준다. 직관적으로 순차적인 데이터 정렬이 모델 성능에 큰 영향을 미친다는 것을 실험적으로 증명하였다. 고급 수학 증명 데이터셋의 질적 개선 방향을 제시한다.
•
한계점: 제시된 '직관적으로 순차적인 순서'의 정의가 모든 유형의 증명에 적용 가능한 보편적인 기준인지에 대한 추가적인 연구가 필요하다. 현재 분석은 특정 유형의 증명과 교재에 국한되어 있으며, 더 광범위한 데이터셋에 대한 검증이 필요하다. 직관적으로 순차적인 순서를 자동으로 생성하거나 식별하는 방법에 대한 연구가 추가적으로 필요하다.