Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

CoreThink: Một lớp lý luận tượng trưng để lý luận về các nhiệm vụ đường chân trời dài với LLM

Created by
  • Haebom

Tác giả

Jay Vaghasiya, Omkar Ghugarkar, Vishvesh Bhat, Vipul Dholaria, Julian McAuley

Phác thảo

CoreThink là một lớp suy luận tiên tiến được xây dựng trên một phương pháp suy luận mới gọi là General Symbolics. Nó khác với các mô hình suy luận hiện có như điều chỉnh theo thời gian kiểm tra, tinh chỉnh có giám sát (SFT) và học tăng cường với phần thưởng có thể xác minh (RLVR). CoreThink General Symbolic Reasoner (GSR) được cấu trúc xung quanh ba trường hợp sử dụng chính: gọi công cụ, tạo mã và lập kế hoạch, và thể hiện hiệu suất vượt trội trên bảy điểm chuẩn trong mỗi miền. Cụ thể, nó đạt được điểm hiệu suất tiên tiến (SOTA) là 66,66% trên Livecodebench v6, 89% trên Instruction-Following Evals và 24,4% trên ARC-AGI-2. Hơn nữa, chúng tôi trình bày một IDE mã hóa tác nhân được phát triển bằng cách sử dụng các nguyên tắc của General Symbolics, đạt được độ chính xác tiên tiến là 62,3% trên SWE-Bench Lite. Cải tiến hiệu suất này đạt được mà không cần bất kỳ chi phí tinh chỉnh hoặc đào tạo nào. Lớp suy luận CoreThink được thiết kế để mang lại hiệu suất thuần túy, đảm bảo độ chính xác của các tác vụ suy luận của mô hình không bao giờ bị suy giảm. Các tác giả lập luận rằng các phương pháp hiện tại cuối cùng sẽ dẫn đến hiệu suất LLM giảm dần, đòi hỏi phải phát triển các kỹ thuật suy luận mới. Báo cáo kỹ thuật này trình bày chi tiết về phương pháp CoreThink ở cấp độ cao và tính khả dụng của các mô hình CoreThink cho các trường hợp sử dụng suy luận chuyên sâu.

Takeaways, Limitations

Takeaways:
Giới thiệu CoreThink, một phương pháp lý luận mới dựa trên Biểu tượng chung.
Hiệu suất vượt trội so với các phương pháp hiện có (SFT, RLVR, v.v.) (SOTA đạt được trong nhiều điểm chuẩn bao gồm Livecodebench v6, Instruction-Following Evals, ARC-AGI-2, SWE-Bench Lite, v.v.).
ĐạT được hiệu suất cao hơn mà không cần tốn chi phí tinh chỉnh và đào tạo.
Mở mô hình cho các trường hợp sử dụng suy luận chuyên sâu.
Đề Xuất nhu cầu về các kỹ thuật suy luận mới để cải thiện hiệu suất LLM.
Limitations:
Các chi tiết cụ thể của phương pháp Biểu tượng chung được trình bày trong bài viết này không được mô tả chi tiết.
Mặc dù nó cho thấy hiệu suất tuyệt vời trong nhiều tiêu chuẩn khác nhau, nhưng hiệu suất của nó trong một số tiêu chuẩn lại tương đối thấp (ví dụ: ARC-AGI-2 24,4%).
Cần nghiên cứu thêm về hiệu suất tổng quát và khả năng mở rộng của General Symbolics.
Cần phải xác nhận thêm các ứng dụng thực tế và hạn chế của CoreThink.
👍