Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Chuyển đổi cấu trúc: Phép tính dựa trên suy luận để chuyển đổi các biểu diễn

Tập hợp các mô hình nền tảng bệnh lý học cho MIDOG 2025 Đường dẫn 2: Phân loại nguyên phân không điển hình

AudioCodecBench: Điểm chuẩn toàn diện để đánh giá bộ giải mã âm thanh

Hiểu về Không gian là Khoa học Tên lửa -- Chỉ những Mô hình Lý luận Hàng đầu mới có thể Giải quyết các Nhiệm vụ Hiểu về Không gian

DaMoC: Lựa chọn hiệu quả mô hình ngôn ngữ lớn tối ưu để tinh chỉnh các tác vụ miền dựa trên nén dữ liệu và mô hình

Kỹ thuật mô-đun để tạo dữ liệu ngữ cảnh dài tổng hợp trong đào tạo và đánh giá mô hình ngôn ngữ

EZhouNet: Một khuôn khổ dựa trên mạng nơ-ron đồ thị và khoảng neo để phát hiện sự kiện âm thanh hô hấp

AImoclips: Một chuẩn mực để đánh giá khả năng truyền tải cảm xúc trong quá trình chuyển văn bản thành nhạc

TimeCopilot

RL dựa trên mô hình bậc nhất thông qua lan truyền ngược tách rời

Nghiên cứu thí điểm về AI tạo sinh và tư duy phản biện trong lớp học đại học

Beacon: Lượng tử hóa sau đào tạo với lựa chọn lưới tích hợp

Trí tuệ nhân tạo có đang định hình lại bối cảnh của cộng đồng khoa học địa chất quốc tế không?

Sự chú ý được vectơ hóa với mã hóa có thể học được cho máy biến áp lượng tử

Cấy ghép rồi tái tạo: Một mô hình mới để tăng cường dữ liệu văn bản

Sự phối hợp chiều sâu-chiều rộng trong RLVR: Mở khóa lợi ích của lý luận LLM với Khám phá thích ứng

MultiGen: Máy phát âm đa ngôn ngữ thân thiện với trẻ em có bằng LLM

StreetViewAI: Làm cho Street View dễ tiếp cận hơn bằng cách sử dụng AI đa phương thức nhận biết ngữ cảnh

AI cấp độ đường phố: Các mô hình ngôn ngữ lớn đã sẵn sàng cho các phán đoán trong thế giới thực chưa?

Ngôn ngữ lược đồ khái niệm KG-ER

RẤT NHIỀU Thời Trang! Đa Điều Kiện để Tạo Hình Ảnh thông qua Ghép Nối Phác Thảo-Văn Bản

Tạo video có điều kiện để nén video hiệu quả cao

TriCLIP-3D: Một khuôn khổ thống nhất hiệu quả về tham số cho nền tảng trực quan 3D ba mô hình dựa trên CLIP

Phân loại chi tiết về gãy xương cổ tay ở trẻ em dựa trên đặc điểm nhân khẩu học

Phân tích các phương pháp hành động-giá trị-thời gian-chênh lệch để học các giá trị trạng thái

Phân tích tham số ngẫu nhiên

Tự động hồi quy so với khớp dòng chảy: Nghiên cứu so sánh các mô hình mô hình hóa cho quá trình tạo văn bản thành nhạc

MiniCPM4: LLM siêu hiệu quả trên thiết bị đầu cuối

ĐáNh giá hiệu quả của lý luận dựa trên LLM cho lập lịch công việc HPC đa mục tiêu

Làm thế nào tôi có thể công bố điểm chuẩn LLM của mình mà không tiết lộ câu trả lời thực sự?

Tối ưu hóa khả năng chuyển đổi mô-đun trong siêu phân giải hình ảnh đơn: Đánh giá tính phổ quát và khối dư chu kỳ

Bộ chuyển đổi mặt nạ có thể chuyển nhượng: Phân đoạn ngữ nghĩa xuyên miền với ước tính khả năng chuyển nhượng thích ứng theo vùng

RBT4DNN: Kiểm tra mạng nơ-ron dựa trên yêu cầu

Học mô phỏng ngoại tuyến mạnh mẽ thông qua khâu quỹ đạo cấp trạng thái

Vượt ra ngoài ảnh ba chiều: nền tảng hấp dẫn lượng tử entropy của xử lý hình ảnh

KNighter: Chuyển đổi Phân tích Tĩnh với Bộ kiểm tra Tổng hợp LLM

FRIDA Cứu Hộ! Phân Tích Hiệu Quả Dữ Liệu Tổng Hợp Trong Lý Luận Thường Thức Dựa Trên Đối Tượng Để Ứng Phó Thảm Họa

CoDiff: Mô hình khuếch tán có điều kiện để phát hiện đối tượng 3D cộng tác

Học từ nhanh thông qua học tập trong ngữ cảnh siêu văn bản

Phương pháp lấy mẫu nhúng hình ảnh cho phụ đề đa dạng

Mô hình nền dựa trên hình ảnh tự nhiên cực lớn có vượt trội hơn mô hình võng mạc trong việc phát hiện các bệnh về mắt và hệ thống không?

ĐIểm ngoại lệ dựa trên biểu đồ mở rộng (EHBOS)

Khảo sát về thế hệ tăng cường truy xuất đồ thị cho các mô hình ngôn ngữ lớn tùy chỉnh

Phá vỡ nút thắt bối cảnh trong dự báo chuỗi thời gian dài

Bảo vệ LVLM khỏi các cuộc tấn công thị giác thông qua giám sát nhận thức một phần

ACING: Diễn viên-Nhà phê bình cho việc học hướng dẫn trong LLM hộp đen

Học tập trải nghiệm dựa trên Kolb dành cho các tác nhân tổng quát với hiệu suất khoa học dữ liệu Kaggle ở cấp độ con người

ĐịNh lượng lỗi hiệu chuẩn trong mạng nơ-ron thông qua lý thuyết dựa trên bằng chứng

ĐàO tạo mạnh mẽ các mô hình sinh ngầm cho phân phối đa biến và phân phối đuôi nặng với tổn thất thống kê bất biến

Học hỏi từ 10 bản demo: Học chính sách có thể tổng quát hóa và hiệu quả theo mẫu với khung khả năng chi trả định hướng

AutoPETIII: The Tracer Frontier. Frontier nào cơ?

Mạng chuỗi đầu vào dài cho dự báo chuỗi thời gian dài

FFHFlow: Tạo ra sự nắm bắt khéo léo đa dạng và nhận thức được sự không chắc chắn thông qua suy luận biến thiên dòng chảy

Unisolver: Bộ biến đổi có điều kiện PDE hướng tới bộ giải PDE thần kinh phổ quát

MTP: Một ngôn ngữ trừu tượng có kiểu ý nghĩa dành cho lập trình tích hợp AI

Sự khuếch tán trên các mã hóa mô hình ngôn ngữ để tạo ra trình tự protein

Chuyển đổi phong cách sang truyện tranh Calvin và Hobbes bằng cách sử dụng Stable Diffusion

Tự động hóa, không phải tự động hóa: Hoạt động và nhu cầu của các nhà kiểm tra thực tế châu Âu làm cơ sở để thiết kế các hệ thống AI lấy con người làm trung tâm

Xác minh kế hoạch cho các tác nhân hoàn thành nhiệm vụ cụ thể dựa trên LLM

EigenBench: Một thước đo hành vi so sánh về sự phù hợp giá trị

Oyster-I: Vượt ra ngoài sự từ chối -- Sự liên kết an toàn mang tính xây dựng cho các mô hình ngôn ngữ có trách nhiệm

Mở rộng FKG.in: Hướng tới mạng lưới truy xuất nguồn gốc thực phẩm

DeepVIS: Kết nối ngôn ngữ tự nhiên và trực quan hóa dữ liệu thông qua suy luận từng bước

Lý thuyết về tâm trí sử dụng suy luận chủ động: Một khuôn khổ cho sự hợp tác của nhiều tác nhân

CP-Bench: Đánh giá các mô hình ngôn ngữ lớn để mô hình hóa ràng buộc

Tiên đề của các lựa chọn hạn chế theo thứ tự tuyến tính của các tập hợp với giá trị tối thiểu làm dự phòng

Hướng dẫn bằng DMN: Khung kiểm soát hành vi LLM

Cơ sở tính toán của việc ra quyết định của LLM trong mô phỏng xã hội

Khoa học xuyên ngôn ngữ: Đánh giá bản dịch đa ngôn ngữ của các bài báo khoa học LLM

Nâng cao FKG.in: tự động hóa phân tích thành phần thực phẩm Ấn Độ

WASP: Một phương pháp tiếp cận không gian trọng số để phát hiện sự giả mạo đã học

Mô hình niềm tin có thể chuyển giao trên mạch lượng tử

PIN: Bộ dữ liệu chuyên sâu về kiến thức dành cho các tài liệu đa phương thức được ghép nối và xen kẽ

(Phi) lý tính trong AI: Tình hình hiện tại, Thách thức nghiên cứu và Câu hỏi mở

Sách nhập môn về tình báo

ChronoGraph: Bộ dữ liệu chuỗi thời gian đa biến dựa trên đồ thị thực tế

Kích hoạt Delta: Một biểu diễn cho các mô hình ngôn ngữ lớn được tinh chỉnh

DEXOP: Thiết bị chuyển giao thao tác khéo léo của con người bằng robot

Hướng tới một cái nhìn thống nhất về mô hình ngôn ngữ lớn sau đào tạo

Không suy nghĩ, chỉ AI: Các khuyến nghị LLM thiên vị hạn chế khả năng của con người trong việc sàng lọc sơ yếu lý lịch

IPA: Khung dự báo đầu vào bảo toàn thông tin cho việc điều chỉnh mô hình nền tảng hiệu quả

SSGaussian: Chuyển đổi phong cách 3D có nhận thức về ngữ nghĩa và bảo toàn cấu trúc

Dự đoán khả năng đỗ xe thông qua việc kết hợp dữ liệu đa nguồn với bộ biến đổi đảo ngược không gian-thời gian được tăng cường tự giám sát

PARCO: ASR ngữ cảnh mạnh mẽ được tăng cường âm vị thông qua việc loại bỏ sự mơ hồ của thực thể tương phản

AUDETER: Bộ dữ liệu quy mô lớn để phát hiện âm thanh Deepfake trong thế giới mở

Từ Trình soạn thảo đến Trình ước tính hình học dày đặc

Học biểu diễn thực thể tách rời để xếp hạng quảng cáo trên Pinterest

Sự thật phai mờ nhanh chóng: Đánh giá khả năng ghi nhớ kiến thức y khoa lỗi thời trong các mô hình ngôn ngữ lớn

HumAine-Chatbot: AI đàm thoại cá nhân hóa theo thời gian thực thông qua học tăng cường

Học tăng cường để kiểm soát mạnh mẽ các hệ thống pin Li-ion có nhận thức về lão hóa với xác minh chính thức dựa trên dữ liệu

Nghiên cứu thực nghiệm về lỗ hổng trong các gói Python và cách phát hiện chúng

Chúng ta có thể cứu được bao nhiêu bệnh nhân với bằng LLM trước đây?

Học nhận thức chủ động thông qua tối ưu hóa sở thích tự phát triển để xây dựng nền tảng GUI

MAGneT: Phối hợp nhiều tác nhân tạo ra các buổi tư vấn sức khỏe tâm thần tổng hợp nhiều lượt

VisioFirm: Công cụ chú thích hỗ trợ AI đa nền tảng cho thị giác máy tính

Vượt qua ranh giới giữa các loài: Chuyển giao kiến thức từ lời nói sang âm thanh động vật

YOLO Ensemble dùng UAV để phát hiện khuyết tật đa phổ trong các thành phần của tuabin gió

Sự chú ý như một bộ lọc thích ứng

TAGAL: Tạo dữ liệu dạng bảng bằng phương pháp Agentic LLM

Nâng cao khả năng truy xuất tài liệu kỹ thuật cho RAG

CoreThink: Một lớp lý luận tượng trưng để lý luận về các nhiệm vụ đường chân trời dài với LLM

Created by

Haebom

Tác giả

Jay Vaghasiya, Omkar Ghugarkar, Vishvesh Bhat, Vipul Dholaria, Julian McAuley

Phác thảo

CoreThink là một lớp suy luận tiên tiến được xây dựng trên một phương pháp suy luận mới gọi là General Symbolics. Nó khác với các mô hình suy luận hiện có như điều chỉnh theo thời gian kiểm tra, tinh chỉnh có giám sát (SFT) và học tăng cường với phần thưởng có thể xác minh (RLVR). CoreThink General Symbolic Reasoner (GSR) được cấu trúc xung quanh ba trường hợp sử dụng chính: gọi công cụ, tạo mã và lập kế hoạch, và thể hiện hiệu suất vượt trội trên bảy điểm chuẩn trong mỗi miền. Cụ thể, nó đạt được điểm hiệu suất tiên tiến (SOTA) là 66,66% trên Livecodebench v6, 89% trên Instruction-Following Evals và 24,4% trên ARC-AGI-2. Hơn nữa, chúng tôi trình bày một IDE mã hóa tác nhân được phát triển bằng cách sử dụng các nguyên tắc của General Symbolics, đạt được độ chính xác tiên tiến là 62,3% trên SWE-Bench Lite. Cải tiến hiệu suất này đạt được mà không cần bất kỳ chi phí tinh chỉnh hoặc đào tạo nào. Lớp suy luận CoreThink được thiết kế để mang lại hiệu suất thuần túy, đảm bảo độ chính xác của các tác vụ suy luận của mô hình không bao giờ bị suy giảm. Các tác giả lập luận rằng các phương pháp hiện tại cuối cùng sẽ dẫn đến hiệu suất LLM giảm dần, đòi hỏi phải phát triển các kỹ thuật suy luận mới. Báo cáo kỹ thuật này trình bày chi tiết về phương pháp CoreThink ở cấp độ cao và tính khả dụng của các mô hình CoreThink cho các trường hợp sử dụng suy luận chuyên sâu.

Takeaways, Limitations

•

Takeaways:

◦

Giới thiệu CoreThink, một phương pháp lý luận mới dựa trên Biểu tượng chung.

◦

Hiệu suất vượt trội so với các phương pháp hiện có (SFT, RLVR, v.v.) (SOTA đạt được trong nhiều điểm chuẩn bao gồm Livecodebench v6, Instruction-Following Evals, ARC-AGI-2, SWE-Bench Lite, v.v.).

◦

ĐạT được hiệu suất cao hơn mà không cần tốn chi phí tinh chỉnh và đào tạo.

◦

Mở mô hình cho các trường hợp sử dụng suy luận chuyên sâu.

◦

Đề Xuất nhu cầu về các kỹ thuật suy luận mới để cải thiện hiệu suất LLM.

•

Limitations:

◦

Các chi tiết cụ thể của phương pháp Biểu tượng chung được trình bày trong bài viết này không được mô tả chi tiết.

◦

Mặc dù nó cho thấy hiệu suất tuyệt vời trong nhiều tiêu chuẩn khác nhau, nhưng hiệu suất của nó trong một số tiêu chuẩn lại tương đối thấp (ví dụ: ARC-AGI-2 24,4%).

◦

Cần nghiên cứu thêm về hiệu suất tổng quát và khả năng mở rộng của General Symbolics.

◦

Cần phải xác nhận thêm các ứng dụng thực tế và hạn chế của CoreThink.

Xem PDF

Made with Slashpage