Bài báo này trình bày một bước bổ sung trong quy trình hậu xử lý nhằm cải thiện ngữ pháp, dấu câu và khả năng đọc hiểu trong quy trình phiên âm hội thoại bằng cách tận dụng mô hình ngôn ngữ quy mô lớn (LLM). Điều này làm phong phú thêm các bản ghi bằng cách thêm các thẻ siêu dữ liệu, chẳng hạn như tuổi, giới tính và cảm xúc của người nói. Một số thẻ là toàn cục cho toàn bộ cuộc trò chuyện, trong khi những thẻ khác thay đổi theo thời gian. Chúng tôi trình bày một phương pháp kết hợp mô hình dựa trên âm thanh cố định, chẳng hạn như Whisper hoặc WavLM, với mô hình ngôn ngữ LLAMA cố định để suy ra các thuộc tính của người nói mà không cần tinh chỉnh từng mô hình cụ thể. Sử dụng một trình kết nối nhẹ và hiệu quả kết nối các biểu diễn âm thanh và ngôn ngữ, chúng tôi đạt được hiệu suất cạnh tranh trong các tác vụ lập hồ sơ người nói trong khi vẫn duy trì tính mô-đun và tốc độ. Hơn nữa, chúng tôi chứng minh rằng mô hình LLAMA cố định đạt được tỷ lệ lỗi (ER) bằng nhau là 8,8% trong một số trường hợp bằng cách so sánh trực tiếp các vectơ x.