Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Mô hình ngôn ngữ tự hỏi

Vượt ra ngoài rủi ro: Một khuôn khổ nguyên mẫu để đánh giá tác động xã hội của các hệ thống AI

Giảm chiều động có giám sát bằng mạng nơ-ron sâu

EmoSteer-TTS: Chuyển văn bản thành giọng nói có thể điều khiển cảm xúc chi tiết và không cần đào tạo thông qua điều khiển kích hoạt

Các Thạc sĩ Luật (LLM) có trái tim sắt đá: Giải mã khả năng tư duy mềm dẻo của các mô hình lý luận lớn

Tối ưu hóa mã dựa trên LLM công nghiệp theo quy định: Phương pháp tiếp cận kết hợp các tác nhân

Giao thức đánh giá đáng tin cậy cho việc truy xuất có độ chính xác thấp

Landsat30-AU: Bộ dữ liệu ngôn ngữ thị giác cho hình ảnh Landsat của Úc

Học tăng cường tích hợp công cụ cho Tìm kiếm sâu trong kho lưu trữ

CauKer: các mô hình nền tảng chuỗi thời gian phân loại chỉ có thể được đào tạo trước trên dữ liệu tổng hợp

Nhúng đa dấu nhắc thích ứng theo ngữ cảnh với các mô hình ngôn ngữ lớn để căn chỉnh tầm nhìn-ngôn ngữ

DMSC: Khung phối hợp đa thang động cho dự báo chuỗi thời gian

HyCodePolicy: Bộ điều khiển ngôn ngữ lai cho giám sát và quyết định đa phương thức trong các tác nhân được thể hiện

Học biểu diễn thực thể thông qua đồ thị tại chỗ-ngoài trang cho quảng cáo Pinterest

ĐáNh giá trải nghiệm người dùng trong hệ thống đề xuất đàm thoại: Đánh giá có hệ thống trên các phương pháp tiếp cận cổ điển và được hỗ trợ bởi LLM

Nhận thức tần số không gian để phát hiện đối tượng trong ảnh RAW

Học cách thao tác xoay trục bằng lực và phản hồi thị giác bằng cách sử dụng các bài trình diễn dựa trên tối ưu hóa

NCCR: Đánh giá tính mạnh mẽ của mạng nơ-ron và các ví dụ đối nghịch

ChartM$^3$: So sánh hiệu chỉnh biểu đồ với hướng dẫn đa phương thức

Từ vướng víu đến căn chỉnh: Phân tích không gian biểu diễn cho việc điều chỉnh miền chuỗi thời gian không giám sát

EcoTransformer: Sự chú ý không cần nhân lên

Bob's Confetti: Các cuộc tấn công ghi nhớ ngữ âm trong thế hệ âm nhạc và video

SDBench: Bộ công cụ chuẩn mực toàn diện cho việc ghi chép diễn giả

Học tập đa phương thức trong bối cảnh thực sự cần chú ý đến bối cảnh trực quan

Mô hình lưu lượng đo lường

Tìm kiếm kiến trúc thần kinh Zero-Shot với tương quan phản hồi có trọng số

Mặt tối của LLM: Tấn công dựa trên tác nhân để chiếm quyền điều khiển máy tính hoàn toàn

CAVGAN: Thống nhất Bẻ khóa và Bảo vệ LLM thông qua các Cuộc tấn công Đối kháng Tạo sinh vào Biểu diễn Nội bộ của chúng

BÌNH CHỌN: Tối ưu hóa Tầm nhìn-Ngôn ngữ-Hành động với Biểu quyết Tập hợp Quỹ đạo

Một nghiên cứu so sánh các LLM chuyên biệt như những chú chó săn mồi dày đặc

Phân biệt dấu hiệu bằng cách sử dụng mô hình ngôn ngữ lớn

UnMix-NeRF: Sự hòa trộn quang phổ kết hợp với trường sáng thần kinh

Mỏ neo tư duy: Những bước lý luận LLM nào quan trọng?

UITron-Speech: Hướng tới các tác nhân GUI tự động dựa trên các lệnh thoại

15.500 giây: Phân loại UAV tinh gọn sử dụng EfficientNet và tinh chỉnh nhẹ

AtmosMJ: Xem xét lại cơ chế Gating cho dự báo thời tiết AI vượt ra ngoài quy mô năm

Về sự bất khả thi cơ bản của việc kiểm soát ảo giác trong các mô hình ngôn ngữ lớn

Mô hình nền tảng liên kết đa phương thức đa nhiệm vụ cho hệ thống thực tế mở rộng thế hệ tiếp theo: Hướng tới trí tuệ phân tán bảo vệ quyền riêng tư trong AR/VR/MR

Lý luận chỉ văn bản giải phóng những người đánh giá đa phương thức Zero-Shot

CAIN: Chiếm đoạt LLM - Cuộc trò chuyện của con người thông qua lời nhắc của hệ thống độc hại

Giải thích ít hơn, hiểu nhiều hơn: Phát hiện thuật ngữ chuyên ngành thông qua tinh chỉnh hiệu quả tham số được cá nhân hóa

Cuộc sống là gì? Một phân tích tổng hợp các ý kiến khác nhau về định nghĩa của sự sống

Một bộ ủ thần kinh tạo sinh cho tối ưu hóa kết hợp hộp đen

GRILL: Khôi phục tín hiệu Gradient trong các lớp không đủ điều kiện để tăng cường các cuộc tấn công đối nghịch vào bộ mã hóa tự động

CostFilter-AD: Nâng cao khả năng phát hiện bất thường thông qua lọc chi phí phù hợp

Mj\"olnir: Một khuôn khổ tham số hóa học sâu cho mật độ sét đánh toàn cầu

Nhận dạng thuộc tính người đi bộ dựa trên sự kiện RGB: Bộ dữ liệu chuẩn và Khung kết hợp RWKV không đối xứng

ProtoECGNet: Học sâu có thể diễn giải dựa trên trường hợp để phân loại ECG đa nhãn với học tương phản

Vượt ra ngoài hình ảnh góc rộng: Chỉnh sửa chân dung video từ cấu trúc đến chi tiết thông qua điều chỉnh không gian-thời gian không giám sát

CITRAS: Bộ chuyển đổi thông tin hiệp biến cho dự báo chuỗi thời gian

Tiêu chí chấm điểm là tất cả những gì bạn cần: Nâng cao việc đánh giá mã dựa trên LLM với tiêu chí chấm điểm dành riêng cho câu hỏi

Phân tích thực nghiệm về sự đồng huấn luyện mô phỏng và thực của các chính sách khuếch tán để đẩy phẳng từ các điểm ảnh

SimpleRL-Zoo: Nghiên cứu và thuần hóa phương pháp học tăng cường bằng không cho các mô hình cơ sở mở trong tự nhiên

NuPlanQA: Bộ dữ liệu quy mô lớn và chuẩn mực cho việc hiểu cảnh lái xe đa góc nhìn trong các mô hình ngôn ngữ lớn đa phương thức

Tác động của các lỗi viết câu hỏi đến độ khó và khả năng phân biệt trong Lý thuyết phản hồi câu hỏi

Qua Kính Lúp: Phóng đại Nhận thức Thích ứng để Giải mã VLM Không gây Ảo giác

Search-R1: Đào tạo LLM để lý luận và tận dụng công cụ tìm kiếm bằng học tăng cường

Lên lịch truy vấn dựa trên kéo cho giao tiếp ngữ nghĩa hướng mục tiêu

Tăng tốc tìm kiếm tiêu điểm trong tìm đường dẫn đa tác nhân với giới hạn dưới chặt chẽ hơn

RAILGUN: Chính sách tích chập thống nhất cho việc tìm đường dẫn đa tác nhân trên nhiều môi trường và tác vụ khác nhau

UltraSTF: Mô hình siêu nhỏ gọn cho dự báo không gian-thời gian quy mô lớn

PTQ1.61: Đẩy mạnh giới hạn thực sự của các phương pháp lượng tử hóa sau đào tạo bit cực thấp cho các mô hình ngôn ngữ lớn

Mô hình nền tảng của hồ sơ bệnh án điện tử để ước tính rủi ro thích ứng

Bỏ học công cụ cho LLM được tăng cường công cụ

Tầm nhìn không cần hình ảnh: Tầm nhìn máy tính đầu cuối từ các phép đo nén đơn lẻ

Mô hình sinh sản vẽ nên một kỹ sư phần mềm như thế nào? Một nghiên cứu điển hình về độ lệch khuếch tán ổn định

3DTTNet: Mô hình hóa địa hình 3D đa phương thức dựa trên Fusion cho môi trường địa hình

DOGR: Hướng tới việc xây dựng nền tảng và tham chiếu tài liệu trực quan đa năng

Học tăng cường ngoại tuyến trong thế giới thực từ phản hồi mô hình ngôn ngữ thị giác

Kiểm toán tính bền vững của mô hình theo nguyên nhân

AUTALIC: Bộ dữ liệu về ngôn ngữ phân biệt đối xử với người khuyết tật chống tự kỷ trong bối cảnh

Vượt ra ngoài việc truy xuất bộ điều hợp: Thành phần bảo toàn hình học tiềm ẩn thông qua phép chiếu tác vụ thưa thớt

Pyhgf: Thư viện mạng nơ-ron cho mã hóa dự đoán

Sự thiên vị của con người trước AI: Xem xét phán đoán của con người đối với văn bản được gắn nhãn là do AI tạo ra

AVG-LLaVA: Một mô hình đa phương thức lớn hiệu quả với độ chi tiết trực quan thích ứng

Nén nhắc nhở LLM có hướng dẫn về cây phân tích cú pháp

Một mô hình, bất kỳ truy vấn kết hợp nào: Mạng nơ-ron đồ thị để trả lời các truy vấn trên đồ thị kiến thức không đầy đủ

Phương pháp MCTS cập nhật song song dựa trên giá trị cho việc ra quyết định hợp tác của nhiều tác nhân trong các phương tiện kết nối và tự động

Giải thích định nghĩa về tính công bằng trong mô hình ngôn ngữ

CityLight: Mô hình phổ quát bao gồm khu phố để điều khiển tín hiệu giao thông phối hợp trên quy mô thành phố

Mạng lưới hợp nhất bằng chứng thời gian: Quan điểm đa nguồn trong dự báo chuỗi thời gian dài hạn

Theo dõi đối tượng trực quan dài hạn bằng camera sự kiện: Bộ theo dõi tăng cường trí nhớ liên kết và bộ dữ liệu chuẩn

Hulk: Người phiên dịch kiến thức phổ quát cho các nhiệm vụ lấy con người làm trung tâm

Từ Giả định Cụm đến Tích chập Đồ thị: Xem xét lại Học bán giám sát dựa trên đồ thị

Phân loại âm thanh môi trường trên nền tảng phần cứng nhúng

Suy luận phụ thuộc dữ liệu để tạo mã công nghiệp dựa trên biểu đồ trình tự UML

InqEduAgent: Học tập AI thích ứng hợp tác với tăng cường quy trình Gaussian

SE-Agent: Tối ưu hóa quỹ đạo tự tiến hóa trong suy luận đa bước với các tác nhân dựa trên LLM

RL-PLUS: Chống lại sự sụp đổ ranh giới năng lực của LLM trong học tăng cường với tối ưu hóa chính sách lai

Mô hình lưu lượng đo cao hơn

Nghĩ cách suy nghĩ: Giảm thiểu suy nghĩ quá mức bằng nhận thức khó khăn tự chủ trong các mô hình lý luận lớn

IS-Bench: Đánh giá tính an toàn tương tác của các tác nhân được thể hiện bằng VLM trong các công việc gia đình hàng ngày

SLR: Tổng hợp tự động cho khả năng suy luận logic có thể mở rộng

ẢO tưởng SWE-Bench: Khi các LLM hiện đại ghi nhớ thay vì lý trí

APOLLO: LLM tự động và cộng tác tinh gọn cho lý luận hình thức nâng cao

Hợp lý hóa hợp tác đối kháng: Nguy cơ tương quan giả mạo ngay cả trong các tập dữ liệu sạch

Học cách suy luận thích ứng cho các mô hình ngôn ngữ lớn đa phương thức

Quy tắc hiệu quả bằng cách bỏ qua các quy tắc vô nghĩa

Tại sao tác nhân đưa ra quyết định đó: Học giải thích tương phản cho học tăng cường

ĐáNh giá ngưỡng phát hiện: Tác động của kết quả dương tính và âm tính giả lên kính hiển vi định vị siêu âm độ phân giải cao

RL-PLUS: Chống lại sự sụp đổ ranh giới năng lực của LLM trong học tăng cường với tối ưu hóa chính sách lai

Created by

Haebom

Tác giả

Yihong Dong, Xue Jiang, Yongding Tao, Huânyu Liu, Kechi Zhang, Lili Mou, Rongyu Cao, Yingwei Ma, Jue Chen, Binhua Li, Zhi Jin, Fei Huang, Yongbin Li, Ge Li

Phác thảo

Bài báo này nhấn mạnh rằng Học tăng cường với phần thưởng có thể kiểm chứng (RLVR) đã cải thiện khả năng suy luận phức tạp của các mô hình ngôn ngữ quy mô lớn (LLM). Tuy nhiên, do chiến lược chính sách cố hữu, không gian hành động rộng lớn của LLM và phần thưởng thưa thớt, nó gặp khó khăn trong việc khắc phục những hạn chế cố hữu của LLM. Hơn nữa, RLVR có thể khiến ranh giới khả năng của LLM sụp đổ, thu hẹp phạm vi giải quyết vấn đề của LLM. Để giải quyết vấn đề này, bài báo này đề xuất RL-PLUS, một phương pháp tối ưu hóa chính sách lai mới kết hợp dữ liệu bên trong và bên ngoài một cách hiệp đồng để đạt được khả năng suy luận mạnh mẽ hơn và khắc phục những hạn chế của mô hình cơ bản. RL-PLUS tích hợp hai thành phần chính: lấy mẫu đa tầm quan trọng để giải quyết sự không khớp phân phối của dữ liệu bên ngoài và một hàm lợi thế dựa trên khám phá để hướng dẫn mô hình theo các đường suy luận có giá trị cao, chưa được khám phá. Thông qua phân tích lý thuyết và các thử nghiệm mở rộng, bài báo này chứng minh tính ưu việt và khả năng khái quát hóa của phương pháp được đề xuất.

Takeaways, Limitations

•

Takeaways:

◦

RL-PLUS đạt hiệu suất tiên tiến nhất trên sáu chuẩn suy luận toán học, vượt trội hơn các phương pháp RLVR hiện có.

◦

Nó cho thấy hiệu suất tuyệt vời trong sáu nhiệm vụ suy luận ngoài phân phối.

◦

Chúng tôi đã quan sát thấy những cải thiện hiệu suất đáng kể và nhất quán trên nhiều họ mô hình khác nhau, với mức cải thiện tương đối trung bình lên tới 69,2%.

◦

RL-PLUS giải quyết hiệu quả vấn đề sụp đổ ranh giới năng lực.

•

Limitations:

◦

Bài báo không đề cập rõ ràng đến Limitations của RL-PLUS. Cần nghiên cứu thêm để làm rõ Limitations cụ thể. Ví dụ, có thể cần phân tích sâu hơn về hiệu quả của lấy mẫu đa tầm quan trọng và các hàm lợi thế dựa trên tìm kiếm. Hơn nữa, khả năng khái quát hóa cho một số loại bài toán hoặc kiến trúc LLM có thể bị hạn chế.

Xem PDF

Made with Slashpage