Bài báo này nhấn mạnh tầm quan trọng của việc phân tích cú pháp lời nói và âm nhạc trong các mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM) và chỉ ra những thiếu sót trong các nghiên cứu hiện có. Bài báo chỉ ra rằng các nghiên cứu hiện có thiếu định nghĩa đầy đủ về các cú pháp ngữ nghĩa và âm thanh, và việc đánh giá codec bị thiên lệch về các lĩnh vực hoặc tác vụ cụ thể (ví dụ: tái tạo hoặc nhận dạng giọng nói tự động), gây khó khăn cho việc so sánh công bằng và toàn diện. Do đó, bài báo này đề xuất các định nghĩa phù hợp về các cú pháp ngữ nghĩa và âm thanh, cũng như một khuôn khổ đánh giá có hệ thống để đánh giá hiệu suất codec trên bốn khía cạnh: số liệu tái tạo âm thanh, độ ổn định chỉ số sổ mã, độ phức tạp của bộ biến đổi đặc thù của bộ giải mã và hiệu suất tác vụ con. Kết quả thực nghiệm chứng minh tính hợp lệ của các định nghĩa được đề xuất và mối tương quan giữa các số liệu tái tạo, độ ổn định của ID sổ mã, hiệu suất tác vụ con và độ phức tạp.