Bài báo này đề cập đến những rủi ro bảo mật mới nổi do sự xuất hiện của các mô hình ngôn ngữ âm thanh hiện đại (AudioLM) xử lý trực tiếp giọng nói. Mặc dù các phương pháp tiếp cận đầu cuối bỏ qua các bước phiên âm riêng biệt truyền thống vẫn bảo toàn được các chi tiết như ngữ điệu và thông tin đa người nói, nhưng chúng cũng mang đến những rủi ro mới, chẳng hạn như việc sử dụng sai các đặc điểm giọng nói nhạy cảm như nhận dạng người nói. Chúng tôi trình bày bằng chứng thực nghiệm cho thấy mô hình hóa đầu cuối làm tăng rủi ro bảo mật kỹ thuật xã hội, chẳng hạn như suy luận danh tính, ra quyết định thiên vị và phát hiện cảm xúc, so với các phương pháp tiếp cận theo đường ống phân cấp. Chúng tôi cũng nêu lên những lo ngại về lưu trữ và chức năng giọng nói, điều này có thể tạo ra sự bất ổn trong khuôn khổ pháp lý hiện hành. Chúng tôi lập luận rằng việc phát triển và triển khai mô hình nên được hướng dẫn bởi nguyên tắc đặc quyền tối thiểu, nhấn mạnh sự cần thiết phải đánh giá các rủi ro về quyền riêng tư và bảo mật liên quan đến mô hình hóa đầu cuối và phạm vi truy cập thông tin phù hợp. Cuối cùng, chúng tôi nêu bật những thiếu sót của các tiêu chuẩn LM âm thanh hiện tại và những thách thức chính về nghiên cứu kỹ thuật và chính sách cần được giải quyết để đảm bảo việc triển khai LM âm thanh đầu cuối một cách có trách nhiệm.