본 논문은 실제 환경의 청각 인지 과제(예: 배경 소음이나 동시 발화 존재 하의 청각 이해 및 기억)에 대한 오디오 거대 언어 모델(Audio LLMs)의 성능을 조사하고, 추론 중 성능을 향상시키기 위한 테스트 시간 계산(TTC) 방법을 제안합니다. 기존의 대규모 텍스트 데이터와 달리, 실제 청각 인지 시나리오를 모방하는 다양한 오디오 데이터셋이 부족하고, 훈련을 위한 청각 인지 레이블을 얻는 것이 어렵기 때문에 Audio LLMs의 재훈련이 어렵다는 점을 지적합니다. 연구진은 자체 수집한 데이터베이스를 사용하여 5가지 Audio LLMs의 청각 인지 능력을 조사하고, 추론 중 청각 인지 능력을 향상시키기 위한 5가지 TTC 방법을 제안했습니다. 연구 결과, Audio LLMs의 성능은 더 어려운 청각 인지 과제에서 저하되었지만, 제안된 TTC 방법은 청각 인지 능력을 크게 향상시켰음을 보여줍니다. 이 연구는 보청기, 음성 기반 AI 어시스턴트, 통신 기술과 같은 실제 응용 분야를 위한 더욱 적응력 있고 탄력적인 Audio LLMs 개발에 기여합니다.