Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Suy nghĩ lại về việc xây dựng chuẩn mực LLM theo lĩnh vực cụ thể: Một cách tiếp cận toàn diện-gọn nhẹ

Created by
  • Haebom

Tác giả

Rubing Chen, Jiaxin Wu, Jian Wang, Xulu Zhang, Wenqi Fan, Chenghua Lin, Xiao-Yong Wei, Qing Li

Phác thảo

Bài báo này tập trung vào việc cải thiện hiệu quả và tính hiệu suất của việc xây dựng chuẩn mực để đánh giá khả năng chuyên biệt của các mô hình ngôn ngữ quy mô lớn (LLM). Các chuẩn mực chuyên biệt hiện có chủ yếu dựa vào các quy tắc tỷ lệ, tinh chỉnh học có giám sát bằng cách sử dụng các ngữ liệu lớn, hoặc tạo ra các bộ câu hỏi mở rộng. Tuy nhiên, tác động của thiết kế ngữ liệu và bộ câu hỏi trả lời (QA) đối với độ chính xác và khả năng thu hồi của các LLM chuyên biệt vẫn chưa được khám phá. Bài báo này giải quyết khoảng trống này và chứng minh rằng các quy tắc tỷ lệ không phải lúc nào cũng tối ưu để xây dựng các chuẩn mực chuyên biệt. Thay vào đó, chúng tôi đề xuất Comp-Comp, một khuôn khổ chuẩn mực lặp lại dựa trên nguyên tắc toàn diện-khả năng nén. Tính toàn diện đảm bảo khả năng thu hồi ngữ nghĩa cho một miền nhất định, trong khi tính gọn nhẹ cải thiện độ chính xác, hướng dẫn việc xây dựng các ngữ liệu và bộ QA. Để xác thực khuôn khổ này, chúng tôi đã tiến hành một nghiên cứu điển hình tại một trường đại học nổi tiếng để phát triển XUBench, một chuẩn mực toàn diện, quy mô lớn, miền đóng. Mặc dù nghiên cứu này sử dụng bối cảnh học thuật làm nghiên cứu điển hình, nhưng khuôn khổ Comp-Comp được thiết kế để cung cấp những hiểu biết có giá trị về việc xây dựng chuẩn mực trong nhiều lĩnh vực ngoài học thuật.

Takeaways, Limitations

Takeaways: Chúng tôi cho rằng việc chỉ dựa vào các quy luật tỷ lệ không phải là phương pháp tối ưu để xây dựng các chuẩn mực LLM theo từng lĩnh vực cụ thể. Chúng tôi đề xuất Comp-Comp, một khuôn khổ mới dựa trên nguyên tắc bao hàm-gọn nhẹ, cung cấp một phương pháp hiệu quả hơn để xây dựng các chuẩn mực. Chúng tôi chứng minh tính thực tiễn của khuôn khổ Comp-Comp bằng một ví dụ thực tế, XUBench. Chúng tôi cung cấp một khuôn khổ có thể được mở rộng sang nhiều lĩnh vực khác nhau.
Limitations: Cho đến nay, chỉ có một nghiên cứu điển hình được trình bày cho một lĩnh vực học thuật. Cần nghiên cứu thêm để xác định khả năng tổng quát hóa của khung Comp-Comp cho các lĩnh vực khác. Chi tiết về cấu hình cụ thể và các chỉ số hiệu suất của XUBench vẫn còn thiếu.
👍