Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

SLR: Tổng hợp tự động cho khả năng suy luận logic có thể mở rộng

Created by
  • Haebom

Tác giả

Lukas Helff, Ahmad Omar, Felix Friedrich, Antonia W ust, Hikaru Shindo, Rupert Mitchell, Tim Woydt, Patrick Schramowski, Wolfgang Stammer, Kristian Kersting

Phác thảo

Bài báo này trình bày về Scalable Logical Reasoning (SLR), một khuôn khổ toàn diện để đánh giá và đào tạo một cách có hệ thống các mô hình ngôn ngữ quy mô lớn (LLM). Dựa trên đặc tả nhiệm vụ của người dùng, SLR tự động tạo ra (i) lời nhắc hướng dẫn cho các nhiệm vụ suy luận quy nạp, (ii) các chương trình xác minh có thể thực thi (với phần thưởng có thể xác minh) cho đầu ra của mô hình và (iii) các quy tắc thực tế tiềm năng. Quy trình này hoàn toàn tự động và có thể mở rộng, không yêu cầu chú thích của con người và cho phép kiểm soát chính xác độ khó của nhiệm vụ. Sử dụng SLR, chúng tôi tạo ra SLR-Bench, một chuẩn mực bao gồm 19.000 lời nhắc được tổ chức thành 20 cấp độ chương trình giảng dạy với độ phức tạp tăng dần về quan hệ, số học và đệ quy. Các đánh giá quy mô lớn cho thấy các LLM hiện đại dễ dàng tạo ra các quy tắc hợp lệ về cú pháp nhưng thường không thực hiện suy luận logic chính xác. Mặc dù các LLM suy luận gần đây đã cải thiện hiệu suất, nhưng chúng lại phát sinh chi phí tính toán thời gian kiểm tra rất cao, vượt quá 300 đô la cho 1.000 lời nhắc. Cuối cùng, việc học chương trình giảng dạy thông qua SLR đã tăng gấp đôi độ chính xác của SLR-Bench đối với Llama-3-8B, đạt đến mức tương đương với Gemini-Flash-Thinking với chi phí tính toán thấp hơn đáng kể. Hơn nữa, khả năng suy luận này còn được tổng quát hóa cho nhiều chuẩn mực hiện có, làm nổi bật hiệu quả của SLR đối với suy luận hạ nguồn.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày SLR, một khuôn khổ hiệu quả và có khả năng mở rộng để đánh giá và cải thiện kỹ năng suy luận logic trong LLM.
Xây dựng một hệ thống tự động tạo ra lời nhắc, chương trình xác thực và quy tắc thực tế mà không cần sự can thiệp của con người.
Thực nghiệm chứng minh rằng kỹ năng lập luận LLM có thể được cải thiện đáng kể thông qua việc học theo chương trình giảng dạy.
Chúng tôi cung cấp một chuẩn mực mới trên quy mô lớn có tên là SLR-Bench để đánh giá khách quan khả năng suy luận của LLM.
ĐạT được hiệu suất tương tự như các mẫu máy có hiệu suất cao hiện có với chi phí thấp hơn.
Chúng tôi chứng minh rằng khả năng suy luận được cải thiện có thể áp dụng rộng rãi trên nhiều chuẩn mực khác nhau.
Limitations:
Hiện tại, SLR-Bench tập trung vào một loại vấn đề suy luận logic cụ thể và cần nghiên cứu thêm để khái quát hóa hiệu suất của nó cho nhiều loại vấn đề suy luận khác nhau.
Chi phí cao để tính toán thời gian kiểm tra cho các chương trình LLM hiệu suất cao vẫn là một lĩnh vực cần cải thiện trong tương lai.
Vì hiệu suất của SLR có thể phụ thuộc vào kiến trúc LLM cụ thể nên cần phải thử nghiệm thêm trên các kiến trúc khác nhau.
👍