본 논문은 대규모 언어 모델(LLM) 연구 결과의 종합 분석을 위한 반자동 접근 방식을 제시합니다. LLM을 활용하여 arXiv 논문에서 실험 결과 및 관련 속성을 자동으로 추출하고, 이를 구조화된 데이터셋인 LLMEvalDB로 구성합니다. LLMEvalDB를 이용하여 최첨단 LLM에 대한 자동화된 문헌 분석을 수행함으로써, 기존의 수동 방식에 비해 논문 조사 및 데이터 추출 작업량을 93% 이상 줄였습니다. Chain-of-Thought(CoT) 추론에 대한 기존 수동 분석 결과를 재현하고, 코딩 및 멀티모달 작업에서는 문맥 내 예시가 효과적이지만 수학 추론 작업에서는 제한적인 효과를 보이는 등 새로운 통찰력을 제공합니다. LLMEvalDB는 새로운 데이터가 생성됨에 따라 지속적으로 업데이트되어 LLM의 동향을 지속적으로 추적할 수 있도록 합니다.