LiveOIBench: Can Large Language Models Outperform Human Contestants in Informatics Olympiads?
Created by
Haebom
저자
Kaijian Zou, Aaron Xiong, Yunxiang Zhang, Frederick Zhang, Yueqi Ren, Jirong Yang, Ayoung Lee, Shitanshu Bhushan, Lu Wang
개요
본 논문은 LLM의 코딩 능력을 평가하기 위한 벤치마크인 LiveOIBench를 소개합니다. LiveOIBench는 2023년부터 2025년까지 72개의 공식 정보 올림피아드에서 출제된 403개의 전문가가 선별한 올림피아드 수준의 경쟁 프로그래밍 문제를 특징으로 합니다. 각 문제는 평균 60개의 전문가가 설계한 테스트 케이스를 포함합니다. LiveOIBench는 정교하게 큐레이션된 고품질 문제, 상위권 참가자 성적 데이터 통합, 지속적인 업데이트, 독립적인 평가 시스템을 통해 기존 벤치마크의 한계를 극복합니다. 32개의 LLM을 벤치마킹한 결과, GPT-5는 81.76%의 성능을 보였지만, 인간 최고 성능에는 미치지 못했습니다. 오픈 웨이트 모델 중 GPT-OSS-120B는 60%의 성능을 보였습니다. 연구 결과는 강력한 추론 모델이 과도한 탐색보다는 정확한 문제 분석을 우선시한다는 것을 시사하며, 향후 모델은 구조화된 분석을 강조하고 불필요한 탐색을 최소화해야 함을 보여줍니다.
시사점, 한계점
•
시사점:
◦
LLM 코딩 능력 평가를 위한 새로운 고품질 벤치마크 제시 (LiveOIBench).
◦
상위권 인간 참가자 데이터와의 비교를 통해 LLM의 성능 평가.
◦
지속적인 문제 업데이트를 통한 벤치마크의 지속적인 발전 가능성.
◦
LLM의 문제 해결 전략에 대한 통찰력 제공 (정확한 문제 분석의 중요성).
•
한계점:
◦
GPT-5를 제외한 다른 모델의 성능이 낮아, 벤치마크의 변별력이 낮을 수 있음.
◦
벤치마크가 올림피아드 문제에 국한되어, 일반적인 코딩 문제 해결 능력 평가에는 한계가 있을 수 있음.