Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

AHELM: Đánh giá toàn diện các mô hình ngôn ngữ âm thanh

Created by
  • Haebom

Tác giả

Tony Lee, Haoqin Tu, Chi Heem Wong, Zijun Wang, Siwei Yang, Yifan Mai, Yuyin Chu, Cihang Xie, Percy Liang

Phác thảo

AHELM là một chuẩn mực mới để đánh giá toàn diện các mô hình ngôn ngữ âm thanh (ALM). Để khắc phục những hạn chế của các chuẩn mực hiện có (thiếu chuẩn hóa, hạn chế về đo lường và khó khăn trong việc so sánh các mô hình), chuẩn mực này tích hợp nhiều tập dữ liệu đa dạng, bao gồm hai tập dữ liệu âm thanh-văn bản tổng hợp mới, PARADE và CoRe-Bench. Chuẩn mực này đo lường hiệu suất ALM trên mười khía cạnh quan trọng: nhận dạng âm thanh, kiến ​​thức, suy luận, phát hiện cảm xúc, thiên vị, công bằng, đa ngôn ngữ, độ mạnh, độc tính và an toàn. Chuẩn mực này sử dụng các gợi ý được chuẩn hóa, tham số suy luận và số liệu đánh giá để đảm bảo so sánh công bằng giữa các mô hình. Bằng cách đánh giá 14 ALM API đóng và mở cùng ba hệ thống cơ sở đơn giản, chúng tôi trình bày kết quả cho thấy Gemini 2.5 Pro xếp hạng cao nhất trên năm khía cạnh, nhưng lại thể hiện sự bất công nhóm trong các nhiệm vụ ASR. Tất cả dữ liệu được công khai tại https://crfm.stanford.edu/helm/audio/v1.0.0 .

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày AHELM, một chuẩn mực đánh giá ALM, nhằm cho phép so sánh công bằng giữa các mô hình.
ĐO lường hiệu suất tổng thể của ALM bằng cách đánh giá toàn diện nhiều khía cạnh khác nhau (nhận dạng âm thanh, suy luận, sai lệch, an toàn, v.v.).
Đề Xuất hướng phát triển ALM thông qua so sánh hiệu suất giữa các mô hình hiện có và hệ thống tham chiếu.
Chúng tôi có kế hoạch liên tục cập nhật AHELM để thêm các tập dữ liệu và mô hình mới.
Limitations:
Số lượng mô hình hiện có trong tiêu chuẩn có thể bị hạn chế.
Cần có sự xác thực bổ sung về quy mô và hiệu suất tổng quát của các tập dữ liệu mới (PARADE, CoRe-Bench).
Cần phân tích sâu hơn để diễn giải kết quả đánh giá theo những khía cạnh cụ thể.
👍