Bài báo này đề xuất một cơ chế gộp mới, khuôn khổ Gộp Thống kê Chú ý Độ phân giải Kép (DRASP), cho dự đoán MOS, một thước đo đánh giá chất lượng giọng nói. Để khắc phục những hạn chế của các phương pháp gộp hiện có, có xu hướng tập trung vào phân tích toàn cục hoặc từng khung hình và bỏ qua những hiểu biết nhận thức bổ sung, DRASP tích hợp các bản tóm tắt thống kê toàn cục với các phân tích chi tiết về các phân đoạn chính. Điều này đồng thời nắm bắt cả bối cảnh cấu trúc tổng thể và các chi tiết cục bộ quan trọng, mang lại các biểu diễn chính xác và mạnh mẽ hơn. Các thử nghiệm mở rộng trên nhiều tập dữ liệu khác nhau (MusicEval, AES-Natural), xương sống dự đoán MOS (các mô hình dựa trên CLAP, AudioBox-Aesthetics) và các hệ thống tạo giọng nói chứng minh tính hiệu quả và hiệu suất tổng quát hóa vượt trội của DRASP, cải thiện hệ số tương quan Spearman cấp hệ thống (SRCC) lên 10,39% so với phương pháp gộp trung bình.