본 논문은 대규모 오디오-언어 모델(LALMs)의 평가를 위한 체계적인 분류 체계를 제안합니다. 기존의 LALMs 평가 벤치마크들이 단편적이고 구조화되지 않았다는 점을 지적하며, 평가 목적에 따라 네 가지 차원, 즉 (1) 일반적인 청각 인식 및 처리, (2) 지식 및 추론, (3) 대화 지향적 능력, (4) 공정성, 안전성 및 신뢰성으로 LALMs 평가를 분류하는 체계를 제시합니다. 각 범주에 대한 상세한 개요와 함께 이 분야의 과제를 강조하고, 미래 연구 방향에 대한 통찰력을 제공합니다. 논문에서 조사된 논문들의 목록을 공개하고 지속적으로 관리하여 해당 분야의 발전을 지원할 예정입니다.