Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

PiCSAR: Lựa chọn và xếp hạng độ tin cậy xác suất

Created by
  • Haebom

Tác giả

Joshua Ong Jun Leang, Zheng Zhao, Aryo Pradipta Gema, Sohee Yang, Wai-Chung Kwan, Xuânli He, Wenda Li, Pasquale Minervini, Eleonora Giunchiglia, Shay B. Cohen

Phác thảo

Bài báo này đề xuất Lựa chọn và Xếp hạng Độ tin cậy Xác suất (PiCSAR), một kỹ thuật lấy mẫu tốt nhất trong n được cải tiến giúp cải thiện độ chính xác của các mô hình ngôn ngữ quy mô lớn (LLM) và các mô hình suy luận quy mô lớn (LRM). PiCSAR giải quyết thách thức trong việc thiết kế một hàm chấm điểm có thể xác định quy trình suy luận đúng mà không cần truy cập vào câu trả lời đúng. Nó sử dụng log-likelihood kết hợp của quy trình suy luận và câu trả lời cuối cùng để chấm điểm cho từng sản phẩm ứng viên. Log-likelihood kết hợp này tự nhiên phân tích thành độ tin cậy suy luận và độ tin cậy của câu trả lời. Nó vượt trội hơn các phương pháp hiện có trên nhiều điểm chuẩn khác nhau (tăng 10,18 trên MATH500 và tăng 9,81 trên AIME2025), đạt hiệu suất tốt hơn với ít nhất gấp đôi số mẫu trong 16 trong số 20 phép so sánh. Kết quả phân tích cho thấy quy trình suy luận đúng dẫn đến độ tin cậy suy luận và câu trả lời cao hơn đáng kể, hỗ trợ hiệu quả của PiCSAR.

Takeaways, Limitations

Takeaways:
Một phương pháp tính điểm mới PiCSAR được đề xuất giúp cải thiện đáng kể hiệu quả của phương pháp lấy mẫu tốt nhất trong n.
Xác định hiệu quả các quá trình suy luận đúng ngay cả khi không có câu trả lời đúng.
Đã Chứng minh hiệu suất và hiệu quả vượt trội so với các phương pháp hiện có trong nhiều tiêu chuẩn khác nhau.
Hiệu quả của PiCSAR được chứng minh thông qua độ tin cậy suy luận và phân tích độ tin cậy của câu trả lời.
Limitations:
Hiệu suất tổng quát hóa cho các loại vấn đề hoặc mô hình khác ngoài các chuẩn mực đã trình bày cần được nghiên cứu thêm.
Có khả năng phương pháp tính toán độ tin cậy của PiCSAR có thể thiên về một số loại vấn đề nhất định.
Cần phải xác minh giới hạn hiệu suất của PiCSAR đối với các vấn đề có quy trình suy luận phức tạp.
👍