본 논문은 음성을 직접 처리하는 최신 오디오 언어 모델(Audio LMs)의 등장으로 인해 발생하는 새로운 안전 위험성을 다룹니다. 기존의 별도 전사 단계를 거치지 않고 음성을 직접 처리하는 end-to-end 방식은 억양이나 다중 화자 정보와 같은 세부 정보를 보존하지만, 동시에 화자 식별 정보 등 민감한 음성 특징의 오용 가능성이라는 새로운 위험을 초래합니다. 논문에서는 end-to-end 모델링이 계층적 파이프라인 방식에 비해 신원 추론, 편향된 의사 결정, 감정 감지와 같은 사회 기술적 안전 위험을 증가시킨다는 실험 결과를 제시하며, 기존 법적 체계 하에서의 불확실성을 야기할 수 있는 voiceprint 저장 및 기능에 대한 우려를 표명합니다. 최소 권한의 원칙을 준수하여 모델 개발 및 배포를 지도해야 한다고 주장하며, end-to-end 모델링과 관련된 개인 정보 및 안전 위험, 적절한 정보 접근 범위 평가의 필요성을 강조합니다. 마지막으로, 현재 오디오 LM 벤치마크의 부족한 점과 책임감 있는 end-to-end 오디오 LM 배포를 위해 해결해야 할 기술적, 정책적 핵심 연구 과제를 제시합니다.