Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

JudgeLRM: Mô hình lý luận lớn như một thẩm phán

Created by
  • Haebom

Tác giả

Nuo Chen, Zhiyuan Hu, Qingyun Zou, Jiaying Wu, Qian Wang, Bryan Hooi, Bingsheng He

Phác thảo

Bài báo này khám phá việc sử dụng các mô hình ngôn ngữ quy mô lớn (LLM) làm công cụ đánh giá. Các phương pháp tinh chỉnh có giám sát (SFT) hiện có có những hạn chế trong các tác vụ đòi hỏi suy luận phức tạp. Bài báo này nghiên cứu xem liệu các công cụ đánh giá LLM có được hưởng lợi đáng kể từ hiệu suất suy luận được cải thiện hay không. Kết quả của chúng tôi cho thấy mối tương quan nghịch giữa hiệu suất SFT được cải thiện và tỷ lệ các mẫu có nhu cầu suy luận cao. Để khắc phục hạn chế này, chúng tôi đề xuất JudgeLRM, một LLM mới dựa trên học tăng cường (RL) sử dụng phần thưởng do người đánh giá điều khiển. JudgeLRM vượt trội hơn các mô hình dựa trên SFT và các mô hình suy luận tiên tiến, đặc biệt là trong các tác vụ đánh giá đòi hỏi suy luận sâu. JudgeLRM-3B vượt trội hơn GPT-4 2,79% về điểm F1 và JudgeLRM-7B vượt trội hơn DeepSeek-R1 2,79%.

Takeaways, Limitations

Takeaways:
Chúng tôi đề xuất JudgeLRM, một phương pháp mới sử dụng LLM làm công cụ đánh giá, nhằm khắc phục những hạn chế của phương pháp SFT hiện tại.
Thông qua học tăng cường, chúng tôi đã đạt được những cải thiện về khả năng suy luận và hiệu suất đánh giá của LLM.
JudgeLRM vượt trội hơn các mô hình có hiệu suất tốt nhất hiện có trong các nhiệm vụ đánh giá đòi hỏi lý luận phức tạp.
Chúng tôi đề xuất khả năng tăng khả năng mở rộng và hiệu quả của các hệ thống đánh giá dựa trên LLM.
Limitations:
Có khả năng cải thiện hiệu suất của JudgeLRM chỉ giới hạn ở các tập dữ liệu hoặc tác vụ cụ thể.
Độ Phức tạp và chi phí tính toán của các quy trình học dựa trên học tăng cường có thể cao.
Cần nghiên cứu thêm về tính minh bạch và khả năng giải thích của tiêu chí phán quyết của JudgeLRM.
Cần phải xác minh hiệu suất tổng quát trên nhiều miền và nhiệm vụ đánh giá khác nhau.
👍