Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Mô hình ngôn ngữ tự hỏi

Vượt ra ngoài rủi ro: Một khuôn khổ nguyên mẫu để đánh giá tác động xã hội của các hệ thống AI

Giảm chiều động có giám sát bằng mạng nơ-ron sâu

EmoSteer-TTS: Chuyển văn bản thành giọng nói có thể điều khiển cảm xúc chi tiết và không cần đào tạo thông qua điều khiển kích hoạt

Các Thạc sĩ Luật (LLM) có trái tim sắt đá: Giải mã khả năng tư duy mềm dẻo của các mô hình lý luận lớn

Tối ưu hóa mã dựa trên LLM công nghiệp theo quy định: Phương pháp tiếp cận kết hợp các tác nhân

Giao thức đánh giá đáng tin cậy cho việc truy xuất có độ chính xác thấp

Landsat30-AU: Bộ dữ liệu ngôn ngữ thị giác cho hình ảnh Landsat của Úc

Học tăng cường tích hợp công cụ cho Tìm kiếm sâu trong kho lưu trữ

CauKer: các mô hình nền tảng chuỗi thời gian phân loại chỉ có thể được đào tạo trước trên dữ liệu tổng hợp

Nhúng đa dấu nhắc thích ứng theo ngữ cảnh với các mô hình ngôn ngữ lớn để căn chỉnh tầm nhìn-ngôn ngữ

DMSC: Khung phối hợp đa thang động cho dự báo chuỗi thời gian

HyCodePolicy: Bộ điều khiển ngôn ngữ lai cho giám sát và quyết định đa phương thức trong các tác nhân được thể hiện

Học biểu diễn thực thể thông qua đồ thị tại chỗ-ngoài trang cho quảng cáo Pinterest

ĐáNh giá trải nghiệm người dùng trong hệ thống đề xuất đàm thoại: Đánh giá có hệ thống trên các phương pháp tiếp cận cổ điển và được hỗ trợ bởi LLM

Nhận thức tần số không gian để phát hiện đối tượng trong ảnh RAW

Học cách thao tác xoay trục bằng lực và phản hồi thị giác bằng cách sử dụng các bài trình diễn dựa trên tối ưu hóa

NCCR: Đánh giá tính mạnh mẽ của mạng nơ-ron và các ví dụ đối nghịch

ChartM$^3$: So sánh hiệu chỉnh biểu đồ với hướng dẫn đa phương thức

Từ vướng víu đến căn chỉnh: Phân tích không gian biểu diễn cho việc điều chỉnh miền chuỗi thời gian không giám sát

EcoTransformer: Sự chú ý không cần nhân lên

Bob's Confetti: Các cuộc tấn công ghi nhớ ngữ âm trong thế hệ âm nhạc và video

SDBench: Bộ công cụ chuẩn mực toàn diện cho việc ghi chép diễn giả

Học tập đa phương thức trong bối cảnh thực sự cần chú ý đến bối cảnh trực quan

Mô hình lưu lượng đo lường

Tìm kiếm kiến trúc thần kinh Zero-Shot với tương quan phản hồi có trọng số

Mặt tối của LLM: Tấn công dựa trên tác nhân để chiếm quyền điều khiển máy tính hoàn toàn

CAVGAN: Thống nhất Bẻ khóa và Bảo vệ LLM thông qua các Cuộc tấn công Đối kháng Tạo sinh vào Biểu diễn Nội bộ của chúng

BÌNH CHỌN: Tối ưu hóa Tầm nhìn-Ngôn ngữ-Hành động với Biểu quyết Tập hợp Quỹ đạo

Một nghiên cứu so sánh các LLM chuyên biệt như những chú chó săn mồi dày đặc

Phân biệt dấu hiệu bằng cách sử dụng mô hình ngôn ngữ lớn

UnMix-NeRF: Sự hòa trộn quang phổ kết hợp với trường sáng thần kinh

Mỏ neo tư duy: Những bước lý luận LLM nào quan trọng?

UITron-Speech: Hướng tới các tác nhân GUI tự động dựa trên các lệnh thoại

15.500 giây: Phân loại UAV tinh gọn sử dụng EfficientNet và tinh chỉnh nhẹ

AtmosMJ: Xem xét lại cơ chế Gating cho dự báo thời tiết AI vượt ra ngoài quy mô năm

Về sự bất khả thi cơ bản của việc kiểm soát ảo giác trong các mô hình ngôn ngữ lớn

Mô hình nền tảng liên kết đa phương thức đa nhiệm vụ cho hệ thống thực tế mở rộng thế hệ tiếp theo: Hướng tới trí tuệ phân tán bảo vệ quyền riêng tư trong AR/VR/MR

Lý luận chỉ văn bản giải phóng những người đánh giá đa phương thức Zero-Shot

CAIN: Chiếm đoạt LLM - Cuộc trò chuyện của con người thông qua lời nhắc của hệ thống độc hại

Giải thích ít hơn, hiểu nhiều hơn: Phát hiện thuật ngữ chuyên ngành thông qua tinh chỉnh hiệu quả tham số được cá nhân hóa

Cuộc sống là gì? Một phân tích tổng hợp các ý kiến khác nhau về định nghĩa của sự sống

Một bộ ủ thần kinh tạo sinh cho tối ưu hóa kết hợp hộp đen

GRILL: Khôi phục tín hiệu Gradient trong các lớp không đủ điều kiện để tăng cường các cuộc tấn công đối nghịch vào bộ mã hóa tự động

CostFilter-AD: Nâng cao khả năng phát hiện bất thường thông qua lọc chi phí phù hợp

Mj\"olnir: Một khuôn khổ tham số hóa học sâu cho mật độ sét đánh toàn cầu

Nhận dạng thuộc tính người đi bộ dựa trên sự kiện RGB: Bộ dữ liệu chuẩn và Khung kết hợp RWKV không đối xứng

ProtoECGNet: Học sâu có thể diễn giải dựa trên trường hợp để phân loại ECG đa nhãn với học tương phản

Vượt ra ngoài hình ảnh góc rộng: Chỉnh sửa chân dung video từ cấu trúc đến chi tiết thông qua điều chỉnh không gian-thời gian không giám sát

CITRAS: Bộ chuyển đổi thông tin hiệp biến cho dự báo chuỗi thời gian

Tiêu chí chấm điểm là tất cả những gì bạn cần: Nâng cao việc đánh giá mã dựa trên LLM với tiêu chí chấm điểm dành riêng cho câu hỏi

Phân tích thực nghiệm về sự đồng huấn luyện mô phỏng và thực của các chính sách khuếch tán để đẩy phẳng từ các điểm ảnh

SimpleRL-Zoo: Nghiên cứu và thuần hóa phương pháp học tăng cường bằng không cho các mô hình cơ sở mở trong tự nhiên

NuPlanQA: Bộ dữ liệu quy mô lớn và chuẩn mực cho việc hiểu cảnh lái xe đa góc nhìn trong các mô hình ngôn ngữ lớn đa phương thức

Tác động của các lỗi viết câu hỏi đến độ khó và khả năng phân biệt trong Lý thuyết phản hồi câu hỏi

Qua Kính Lúp: Phóng đại Nhận thức Thích ứng để Giải mã VLM Không gây Ảo giác

Search-R1: Đào tạo LLM để lý luận và tận dụng công cụ tìm kiếm bằng học tăng cường

Lên lịch truy vấn dựa trên kéo cho giao tiếp ngữ nghĩa hướng mục tiêu

Tăng tốc tìm kiếm tiêu điểm trong tìm đường dẫn đa tác nhân với giới hạn dưới chặt chẽ hơn

RAILGUN: Chính sách tích chập thống nhất cho việc tìm đường dẫn đa tác nhân trên nhiều môi trường và tác vụ khác nhau

UltraSTF: Mô hình siêu nhỏ gọn cho dự báo không gian-thời gian quy mô lớn

PTQ1.61: Đẩy mạnh giới hạn thực sự của các phương pháp lượng tử hóa sau đào tạo bit cực thấp cho các mô hình ngôn ngữ lớn

Mô hình nền tảng của hồ sơ bệnh án điện tử để ước tính rủi ro thích ứng

Bỏ học công cụ cho LLM được tăng cường công cụ

Tầm nhìn không cần hình ảnh: Tầm nhìn máy tính đầu cuối từ các phép đo nén đơn lẻ

Mô hình sinh sản vẽ nên một kỹ sư phần mềm như thế nào? Một nghiên cứu điển hình về độ lệch khuếch tán ổn định

3DTTNet: Mô hình hóa địa hình 3D đa phương thức dựa trên Fusion cho môi trường địa hình

DOGR: Hướng tới việc xây dựng nền tảng và tham chiếu tài liệu trực quan đa năng

Học tăng cường ngoại tuyến trong thế giới thực từ phản hồi mô hình ngôn ngữ thị giác

Kiểm toán tính bền vững của mô hình theo nguyên nhân

AUTALIC: Bộ dữ liệu về ngôn ngữ phân biệt đối xử với người khuyết tật chống tự kỷ trong bối cảnh

Vượt ra ngoài việc truy xuất bộ điều hợp: Thành phần bảo toàn hình học tiềm ẩn thông qua phép chiếu tác vụ thưa thớt

Pyhgf: Thư viện mạng nơ-ron cho mã hóa dự đoán

Sự thiên vị của con người trước AI: Xem xét phán đoán của con người đối với văn bản được gắn nhãn là do AI tạo ra

AVG-LLaVA: Một mô hình đa phương thức lớn hiệu quả với độ chi tiết trực quan thích ứng

Nén nhắc nhở LLM có hướng dẫn về cây phân tích cú pháp

Một mô hình, bất kỳ truy vấn kết hợp nào: Mạng nơ-ron đồ thị để trả lời các truy vấn trên đồ thị kiến thức không đầy đủ

Phương pháp MCTS cập nhật song song dựa trên giá trị cho việc ra quyết định hợp tác của nhiều tác nhân trong các phương tiện kết nối và tự động

Giải thích định nghĩa về tính công bằng trong mô hình ngôn ngữ

CityLight: Mô hình phổ quát bao gồm khu phố để điều khiển tín hiệu giao thông phối hợp trên quy mô thành phố

Mạng lưới hợp nhất bằng chứng thời gian: Quan điểm đa nguồn trong dự báo chuỗi thời gian dài hạn

Theo dõi đối tượng trực quan dài hạn bằng camera sự kiện: Bộ theo dõi tăng cường trí nhớ liên kết và bộ dữ liệu chuẩn

Hulk: Người phiên dịch kiến thức phổ quát cho các nhiệm vụ lấy con người làm trung tâm

Từ Giả định Cụm đến Tích chập Đồ thị: Xem xét lại Học bán giám sát dựa trên đồ thị

Phân loại âm thanh môi trường trên nền tảng phần cứng nhúng

Suy luận phụ thuộc dữ liệu để tạo mã công nghiệp dựa trên biểu đồ trình tự UML

InqEduAgent: Học tập AI thích ứng hợp tác với tăng cường quy trình Gaussian

SE-Agent: Tối ưu hóa quỹ đạo tự tiến hóa trong suy luận đa bước với các tác nhân dựa trên LLM

RL-PLUS: Chống lại sự sụp đổ ranh giới năng lực của LLM trong học tăng cường với tối ưu hóa chính sách lai

Mô hình lưu lượng đo cao hơn

Nghĩ cách suy nghĩ: Giảm thiểu suy nghĩ quá mức bằng nhận thức khó khăn tự chủ trong các mô hình lý luận lớn

IS-Bench: Đánh giá tính an toàn tương tác của các tác nhân được thể hiện bằng VLM trong các công việc gia đình hàng ngày

SLR: Tổng hợp tự động cho khả năng suy luận logic có thể mở rộng

ẢO tưởng SWE-Bench: Khi các LLM hiện đại ghi nhớ thay vì lý trí

APOLLO: LLM tự động và cộng tác tinh gọn cho lý luận hình thức nâng cao

Hợp lý hóa hợp tác đối kháng: Nguy cơ tương quan giả mạo ngay cả trong các tập dữ liệu sạch

Học cách suy luận thích ứng cho các mô hình ngôn ngữ lớn đa phương thức

Quy tắc hiệu quả bằng cách bỏ qua các quy tắc vô nghĩa

Tại sao tác nhân đưa ra quyết định đó: Học giải thích tương phản cho học tăng cường

ĐáNh giá ngưỡng phát hiện: Tác động của kết quả dương tính và âm tính giả lên kính hiển vi định vị siêu âm độ phân giải cao

Tại sao tác nhân đưa ra quyết định đó: Học giải thích tương phản cho học tăng cường

Created by

Haebom

Tác giả

Rui Zuo, Simon Khan, Zifan Wang, Garrett Ethan Katz, Qinru Qiu

Phác thảo

Học tăng cường (RL) đã đạt được thành công đáng kể trong việc giải quyết các vấn đề ra quyết định phức tạp, nhưng tính khó diễn giải của các quy trình ra quyết định cản trở việc áp dụng nó trong các lĩnh vực quan trọng. Các phương pháp AI có thể giải thích (xAI) hiện có thường không cung cấp được những lời giải thích có ý nghĩa cho các tác nhân RL, đặc biệt là vì chúng bỏ qua bản chất tương phản của lý luận con người (trả lời các câu hỏi như "Tại sao bạn chọn hành động này thay vì hành động khác?"). Để giải quyết khoảng trống này, bài báo này đề xuất $\textbf{VisionMask}$, một khuôn khổ mới cho học tương phản, sử dụng các phương pháp tự giám sát để huấn luyện các tác nhân tạo ra lời giải thích bằng cách đối chiếu rõ ràng hành động đã chọn của tác nhân với các hành động thay thế trong một trạng thái nhất định. Các thí nghiệm trong các môi trường RL khác nhau chứng minh hiệu quả của VisionMask về độ trung thực, độ mạnh mẽ và độ phức tạp. Kết quả cho thấy VisionMask nâng cao đáng kể sự hiểu biết của con người về hành vi của tác nhân trong khi vẫn duy trì độ chính xác và độ trung thực. Chúng tôi cũng trình bày các ví dụ minh họa cách VisionMask có thể được sử dụng cho phân tích phản thực nghiệm. Nghiên cứu này thu hẹp khoảng cách giữa RL và xAI, mở đường cho các hệ thống RL an toàn hơn và dễ diễn giải hơn.

Takeaways, Limitations

•

Takeaways:

◦

Cải thiện khả năng giải thích quá trình ra quyết định của các tác nhân học tăng cường.

◦

Một khuôn khổ giải thích mới dựa trên phương pháp học tương phản có tính đến lý luận của con người được trình bày.

◦

Nâng cao hiểu biết về hành vi của tác nhân và duy trì độ chính xác và độ trung thực với VisionMask.

◦

Trình bày khả năng phân tích phản thực tế.

◦

Góp phần vào sự phát triển của các hệ thống RL an toàn hơn và dễ hiểu hơn.

•

Limitations:

◦

Cần nghiên cứu thêm để xác định khả năng khái quát hóa của môi trường thử nghiệm được trình bày trong bài báo.

◦

Cần phân tích sâu hơn về chi phí tính toán và hiệu quả của VisionMask.

◦

Cần phải xác minh khả năng áp dụng cho nhiều loại tác nhân và môi trường học tăng cường khác nhau.

Xem PDF

Made with Slashpage