본 논문은 대규모 언어 모델(LLM)의 퍼즐 추론 능력 향상을 위한 포괄적인 벤치마크 및 훈련 프레임워크인 Enigmata를 제시합니다. Enigmata는 7가지 범주에 걸쳐 36가지 퍼즐 과제를 포함하며, 각 과제는 무제한의 예제를 생성하고 난이도를 조절할 수 있는 생성기와 자동 평가를 위한 규칙 기반 검증기를 갖추고 있습니다. 이를 통해 확장 가능한 다중 작업 강화 학습 훈련, 세분화된 분석, 그리고 RLVR(Reinforcement Learning with Verifiable Rewards)와의 원활한 통합이 가능합니다. 논문에서는 Enigmata-Eval이라는 엄격한 벤치마크를 제안하고, 최적화된 다중 작업 RLVR 전략을 개발하여 Qwen2.5-32B-Enigmata 모델을 훈련시켰습니다. 훈련된 모델은 기존 모델들보다 Enigmata-Eval, ARC-AGI 등의 퍼즐 추론 벤치마크에서 우수한 성능을 보였으며, 도메인 외 퍼즐 벤치마크와 수학적 추론에도 잘 일반화되었습니다. 더 큰 모델인 Seed1.5-Thinking에 Enigmata의 퍼즐 데이터를 사용하여 훈련시킨 결과, AIME, BeyondAIME, GPQA와 같은 고급 수학 및 STEM 추론 과제에서도 최첨단 성능을 달성했습니다.
시사점, 한계점
•
시사점:
◦
LLM의 퍼즐 추론 능력 향상을 위한 효과적인 벤치마크 및 훈련 프레임워크인 Enigmata 제시.
◦
Enigmata를 활용한 다중 작업 RLVR 전략으로 기존 모델 대비 우수한 성능 달성.
◦
도메인 일반화 능력 향상 및 고급 수학, STEM 추론 과제 성능 향상.
◦
난이도 조절이 가능한 퍼즐 생성기 및 자동 평가 시스템 제공.
•
한계점:
◦
Enigmata의 범위가 특정 유형의 퍼즐에 국한될 수 있음. 다양한 유형의 추론 능력 평가를 위해서는 더욱 확장된 벤치마크가 필요할 수 있음.
◦
현재 성능은 특정 모델과 훈련 전략에 의존적일 수 있음. 다른 모델이나 훈련 방법에 대한 추가 연구가 필요함.
◦
퍼즐 해결 능력 향상이 실제 세계 문제 해결 능력 향상으로 직접 연결되는지에 대한 추가 연구가 필요함.