Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Nondeterministic Polynomial-time Problem Challenge: An Ever-Scaling Reasoning Benchmark for LLMs

Created by
  • Haebom

저자

Chang Yang, Ruiyu Wang, Junzhe Jiang, Qi Jiang, Qinggang Zhang, Yanchen Deng, Shuxin Li, Shuyue Hu, Bo Li, Florian T. Pokorny, Xiao Huang, Xinrun Wang

개요

본 논문은 대규모 언어 모델(LLM)의 추론 능력 평가를 위한 새로운 벤치마크인 비결정적 다항시간 문제 챌린지(NPPC)를 제안합니다. 기존 벤치마크의 한계인 빠른 성능 저하 및 취약성 문제를 해결하기 위해, NPPC는 25가지 잘 알려진 NP-완전 문제를 통합 인터페이스로 제공하는 npgym, 온라인 및 오프라인 모델 평가를 위한 npsolver, 그리고 LLM 성능 분석을 위한 npeval의 세 가지 모듈로 구성됩니다. 실험 결과, NPPC는 최첨단 LLM의 성능을 10% 미만으로 낮추는 등, '깨지지 않고(uncrushable)', '해킹되지 않는(unhackable)', '자동 검증 가능하고(auto-verifiable)', '범용적인(general)' 벤치마크로서의 기능을 성공적으로 입증했습니다. DeepSeek-R1, Claude-3.7-Sonnet, o1/o3-mini 등이 우수한 성능을 보였으며, 특히 DeepSeek-R1이 대부분의 NP-완전 문제에서 가장 뛰어난 성능을 나타냈습니다. 또한, 고급 LLM에서 토큰 수와 'aha moment'는 문제의 난이도가 증가함에 따라 증가하다가 감소하는 경향을 보였습니다. NPPC는 인공 일반 지능(AGI)을 향한 LLM의 척도로서, 최초의 '끊임없이 확장되는(ever-scaling)' 추론 벤치마크가 될 것으로 기대됩니다.

시사점, 한계점

시사점:
기존 LLM 추론 벤치마크의 한계점(빠른 성능 저하 및 취약성)을 극복하는 새로운 벤치마크 NPPC 제시
NPPC를 통해 다양한 LLM의 추론 능력을 객관적으로 비교 및 평가 가능
NP-완전 문제를 활용하여 LLM의 추론 능력에 대한 엄격한 평가 가능
LLM의 토큰 수, aha moment와 문제 난이도 간의 상관관계 분석 가능
AGI 개발을 위한 LLM의 추론 능력 향상에 기여
한계점:
NP-완전 문제의 특성상, 계산 복잡도가 높아 평가 시간 및 자원 소모가 클 수 있음
NPPC가 모든 유형의 추론 문제를 포괄적으로 다루는지는 추가 연구 필요
현재 평가 대상 LLM의 종류가 제한적이며, 더 다양한 LLM에 대한 평가 필요
'aha moment' 등의 정량적 측정에 대한 추가적인 연구가 필요할 수 있음
👍