본 논문은 Transformer 기반 대규모 언어 모델(LLM)의 효율적인 구축을 위한 연구로, 모델 성능과 훈련 및 배포 비용 간의 최적화를 목표로 합니다. 기존 연구들이 주로 모델 성능, 파라미터 크기, 데이터 크기 간의 복잡한 관계와 LLM 훈련을 위한 최적의 컴퓨팅 할당에 초점을 맞춘 것과 달리, 본 논문은 컨텍스트 길이와 어텐션 헤드 구성(그룹화된 쿼리 어텐션에서 쿼리 및 키-값 헤드의 수)의 영향을 체계적으로 분석합니다. 다양한 파라미터 크기, 컨텍스트 길이, 어텐션 헤드 구성을 가진 모델들을 비교하여 성능, 계산 비용, 메모리 비용을 평가하고, 파라미터 크기와 훈련 컴퓨팅에만 기반한 기존의 스케일링 방법을 확장하여 훈련 및 추론 과정 모두에서 비용 최적의 LLM을 구축하는 방법을 제시합니다. 특히 충분히 긴 시퀀스를 처리할 때, 더 적은 어텐션 헤드를 가진 더 큰 모델이 더 낮은 손실을 달성하면서 계산 및 메모리 비용을 낮출 수 있음을 정량적으로 보여줍니다. 본 논문의 결과는 특히 긴 컨텍스트 처리 시나리오에서 실용적인 LLM 개발에 귀중한 통찰력을 제공하며, 코드와 데이터를 공개할 예정입니다.