LiSTEN(Learning Soft Token Embeddings for Neural Audio LLMs)은 대규모 언어 모델(LLM)을 음성 및 오디오 작업에 적용하기 위한 프레임워크입니다. 다양한 음향 환경과 작업 변화에도 불구하고, 학습 가능한 키-값 쌍을 사용하는 동적 프롬프트 선택 전략을 통해 일반적인 지식과 작업별 지식의 균형을 맞추고 다중 작업 설정에서 과적합을 방지합니다. 대규모 ASR 또는 캡션 데이터셋에 대한 의존성을 줄이고, 적은 학습 가능한 매개변수로 경쟁력 있는 성능을 달성하며, 단일 단계 프로세스를 사용하여 훈련을 간소화합니다. 또한, 선택된 프롬프트의 다양성과 겹침을 분석하여 해석성을 향상시킵니다.