본 논문은 기존 연구의 5개월이라는 제한적인 관찰 기간의 한계를 극복하고자 11개월에 걸친 종단적 연구를 수행하여 한국어 대규모 언어 모델(LLM) 개발의 진행 상황에 대한 보다 포괄적인 이해를 제공하고자 합니다. Open Ko-LLM Leaderboard 상에서 다양한 작업에 대한 LLM 성능 향상의 특정 과제, 모델 크기가 다양한 벤치마크에서의 작업 성능 상관관계에 미치는 영향, Open Ko-LLM Leaderboard의 순위 패턴 변화 등 세 가지 주요 연구 질문을 중심으로 1,769개의 모델을 분석하여 LLM의 지속적인 발전과 평가 프레임워크의 진화하는 특성을 종합적으로 조사합니다.