본 논문은 오디오 입력을 받는 언어 모델의 전환점에 대해 논의한다. 최신 엔드-투-엔드 오디오 언어 모델(Audio LMs)은 별도의 전사 단계 없이 음성을 직접 처리하여, 전사 과정에서 손실될 수 있는 억양이나 다중 화자 존재 여부와 같은 세부 정보를 보존한다. 하지만 이는 화자 신원 단서 및 기타 민감한 음성 속성의 오용 가능성과 같은 새로운 안전 위험을 초래하여 법적 문제를 야기할 수 있다. 따라서 본 논문에서는 이러한 모델의 구축 및 배포 방식에 대한 면밀한 검토를 촉구하고, 최소 권한 원칙에 따라 계단식 모델 또는 엔드-투-엔드 모델의 배포 여부를 결정해야 한다고 주장한다. 특히, 주어진 애플리케이션에 엔드-투-엔드 모델링이 필요한지 여부와 정보 접근의 적절한 범위를 평가해야 한다. 마지막으로, 현재 오디오 LM 벤치마크의 관련한 간극을 강조하고, 책임감 있는 엔드-투-엔드 오디오 LM 배포를 위해 해결해야 할 기술적 및 정책적 핵심 미해결 연구 과제들을 제시한다.