Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Cut2Next: Tạo cảnh quay tiếp theo thông qua điều chỉnh trong ngữ cảnh

DIVER: Một phương pháp tiếp cận nhiều giai đoạn để thu thập thông tin chuyên sâu về lý luận

Omni-Effects: Tạo hiệu ứng hình ảnh thống nhất và có thể kiểm soát theo không gian

Chimera: Sử dụng LLM đa tác nhân để mô phỏng mối đe dọa nội gián tự động

Klear-Reasoner: Nâng cao khả năng suy luận thông qua tối ưu hóa chính sách cắt giữ nguyên độ dốc

TurboBias: Universal ASR Context-Biasing được hỗ trợ bởi cây tăng cường cụm từ được tăng tốc bởi GPU

AMFT: Điều chỉnh các nhà lý luận LLM bằng cách học siêu việt sự cân bằng tối ưu giữa bắt chước và khám phá

LSDT: LLM - Bản sao kỹ thuật số ngữ nghĩa tăng cường cho quy hoạch cơ sở hạ tầng chuyên sâu về kiến thức thích ứng

Liệu các mô hình thiên vị có suy nghĩ thiên vị không?

Phát hiện sớm ung thư tuyến tụy bằng phương pháp học đa phương thức trên hồ sơ sức khỏe điện tử

LLM Unlearning mà không cần bộ dữ liệu được chuyên gia tuyển chọn

Bảng nhúng lớn đa diện để xếp hạng quảng cáo Pinterest

Echo: Tách rời suy luận và đào tạo để căn chỉnh RL quy mô lớn trên các đàn không đồng nhất

Cơ sở hạ tầng dịch tễ học: Khung chẩn đoán cho kiến thức hậu mạch lạc

RCR-Router: Định tuyến ngữ cảnh nhận biết vai trò hiệu quả cho các hệ thống LLM đa tác nhân với bộ nhớ có cấu trúc

Vị trí: Mô hình Hội nghị AI Hiện tại Không Bền vững! Chẩn đoán Khủng hoảng Hội nghị AI Tập trung

GTPO và GRPO-S: Định hình phần thưởng theo mã thông báo và cấp độ chuỗi với Entropy chính sách

Một vài từ có thể làm biến dạng đồ thị: Các cuộc tấn công đầu độc kiến thức vào thế hệ mô hình ngôn ngữ lớn được tăng cường truy xuất dựa trên đồ thị

Giải thích về các bộ phân loại chuỗi thời gian với PHAR: Trích xuất và hợp nhất quy tắc từ các thuộc tính sau hoc

Mô hình ngôn ngữ nhận thức vai trò để kiểm soát truy cập an toàn và theo ngữ cảnh trong các tổ chức

DynaSwarm: Lựa chọn cấu trúc đồ thị động cho hệ thống đa tác nhân dựa trên LLM

Học tập sau khi hoàn thành cho các mô hình ngôn ngữ

Các đại biểu thay thế, hãy tập hợp! Lựa chọn đại biểu thay thế tối ưu cho các cuộc họp của công dân

Kiểm tra Argus: Các mô hình ngôn ngữ lớn đa phương thức có sở hữu con mắt của Panoptes không?

RAGtifier: Đánh giá các phương pháp tạo RAG của các hệ thống RAG hiện đại cho cuộc thi SIGIR LiveRAG

Phân cụm tài liệu và mẫu không giám sát bằng cách sử dụng nhúng đa phương thức

Bản đồ tự tổ chức bão hòa

CulturalFrames: Đánh giá sự phù hợp kỳ vọng văn hóa trong các mô hình văn bản sang hình ảnh và các chỉ số đánh giá

ĐáNh giá hay không đánh giá: Sử dụng phán đoán của LLM để đánh giá mức độ liên quan của cụm từ khóa của nhà quảng cáo trên eBay

ĐIện toán cộng tác Edge-Cloud về trí tuệ phân tán và tối ưu hóa mô hình: Một khảo sát

Mj\"olnir: Một khuôn khổ tham số hóa học sâu cho mật độ sét đánh toàn cầu

Học tập liên bang: Khảo sát về trí tuệ cộng tác bảo vệ quyền riêng tư

Dân chủ của AI Mô hình thời tiết số: Một ví dụ về dự báo toàn cầu với FourCastNetv2 do Phòng thí nghiệm nghiên cứu của trường đại học thực hiện bằng GPU

Thế hệ tăng cường truy xuất với bằng chứng mâu thuẫn

SPIE: Đào tạo sau về mặt ngữ nghĩa và cấu trúc của các mô hình khuếch tán chỉnh sửa hình ảnh với phản hồi AI

ĐáNh giá niềm tin vào AI, con người và phản hồi đồng sản xuất giữa sinh viên đại học

ProtoECGNet: Học sâu có thể diễn giải dựa trên trường hợp để phân loại ECG đa nhãn với học tương phản

ChatBench: Từ điểm chuẩn tĩnh đến đánh giá AI-con người

Cắt tỉa tính toán thích ứng cho máy biến áp hay quên

Quấy rối tình dục do AI gây ra: Điều tra các đặc điểm theo ngữ cảnh và phản ứng của người dùng trước hành vi quấy rối tình dục của Chatbot đồng hành

CrossWordBench: Đánh giá khả năng suy luận của LLM và LVLM với khả năng tạo câu đố có thể kiểm soát

Nhận dạng thực thể có tên opioid (ONER-2025) từ Reddit

OSMa-Bench: Đánh giá ánh xạ ngữ nghĩa mở trong điều kiện ánh sáng khác nhau

TIDE: Bộ mã hóa tự động thưa thớt nhận biết thời gian cho bộ biến đổi khuếch tán có thể diễn giải trong quá trình tạo hình ảnh

Kiểm soát linh hoạt vùng tiền trán đối với trí nhớ phân đoạn vùng đồi hải mã để khái quát hóa theo mục tiêu

EvoP: Suy luận LLM mạnh mẽ thông qua việc cắt tỉa tiến hóa

ĐêM không ngủ, ngày ngọt ngào: Tạo người dùng tổng hợp có tình trạng sức khỏe để tương tác với đại lý huấn luyện thực tế

Chú thích cảm xúc Zero-shot trong ảnh khuôn mặt sử dụng mô hình đa phương thức lớn: Đánh giá chuẩn và triển vọng cho các phương pháp tiếp cận đa lớp, đa khung

PAR-AdvGAN: Cải thiện khả năng tấn công đối kháng bằng AdvGAN tự động hồi quy tiến bộ

Quên Dữ liệu và Tinh chỉnh đi! Chỉ cần Gấp Mạng để Nén

FBFL: Một phương pháp phối hợp dựa trên trường cho tính không đồng nhất của dữ liệu trong học tập liên bang

Hồi quy dựa trên giải mã

AdEval: Đánh giá động dựa trên sự liên kết để giảm thiểu ô nhiễm dữ liệu trong các mô hình ngôn ngữ lớn

Tổng hợp ngược được liên kết với nhà hóa học bằng cách tập hợp các mô hình thiên vị cảm ứng đa dạng

Mạng nơ-ron sâu thông tin thích ứng để phân tích dòng điện

Công cụ phân loại và phản ánh rủi ro để áp dụng mô hình ngôn ngữ lớn trong y tế công cộng

Học các mẫu giọng nói của khỉ Marmoset bằng bộ mã hóa tự động có mặt nạ để phân đoạn, phân loại và nhận dạng người gọi một cách mạnh mẽ

Truy cập phổ động cho các hệ thống D2D hỗ trợ giao tiếp tán xạ ngược xung quanh với học tăng cường lượng tử

Tổng quát hóa Zero-Shot của RL dựa trên tầm nhìn mà không cần tăng cường dữ liệu

Tạo chuyển động dựa trên siêu đồ thị với tương tác đa phương thức và suy luận quan hệ

3DFacePolicy: Hoạt ảnh khuôn mặt 3D điều khiển bằng âm thanh dựa trên điều khiển hành động

Dự đoán lợi nhuận cho việc lựa chọn danh mục đầu tư trung bình-phương sai: Cách học tập tập trung vào quyết định định hình các mô hình dự báo

OE3DIS: Phân đoạn phiên bản đám mây điểm 3D mở

VisionUnite: Mô hình nền tảng ngôn ngữ thị giác dành cho nhãn khoa được tăng cường kiến thức lâm sàng

DreamStory: Hình dung câu chuyện miền mở bằng phương pháp khuếch tán nhất quán đa chủ đề do LLM hướng dẫn

MEReQ: Max-Ent Residual-Q nghịch đảo RL cho sự căn chỉnh hiệu quả mẫu từ sự can thiệp

Hệ số thích ứng đa chiều cho tối ưu hóa quỹ đạo suy luận trong dòng chảy và khuếch tán

AIOS: Hệ điều hành đại lý LLM

Giữ bạn bè gần gũi: Tận dụng nhóm sở thích để tăng tốc quy trình suy luận AI

Từ phòng thí nghiệm đến hiện trường: Đánh giá thực tế về giải pháp video thông minh do AI điều khiển nhằm tăng cường an toàn cộng đồng

BELLA: Giải thích mô hình hộp đen bằng phép xấp xỉ tuyến tính cục bộ

Phần mềm trí tuệ nhân tạo được cấu trúc để mô phỏng trí nhớ làm việc, hình ảnh tinh thần và tính liên tục của tinh thần của con người

Phù hợp với các Ontology Logic Mô tả với ABox và Ví dụ Truy vấn

Diễn giải Fedspeak một cách tự tin: Khung nhận thức về sự bất định dựa trên LLM được hướng dẫn bởi các đường dẫn truyền chính sách tiền tệ

Thiết kế hệ thống hỗ trợ quyết định dựa trên phản hồi để can thiệp năng động vào học sinh

Các mô hình ngôn ngữ lớn không mô phỏng được tâm lý con người

IRL-VLA: Đào tạo Chính sách Tầm nhìn-Ngôn ngữ-Hành động thông qua Mô hình Thế giới Phần thưởng

InfiAlign: Một khuôn khổ có khả năng mở rộng và hiệu quả về mẫu để sắp xếp các LLM nhằm nâng cao khả năng lập luận

SEAgent: Đại lý sử dụng máy tính tự phát triển với khả năng học tập tự động từ kinh nghiệm

Mặt nạ động có thể đào tạo Chú ý thưa thớt

Hợp nhất dữ liệu cảm biến đa phương thức dựa trên cạnh với mô hình ngôn ngữ thị giác (VLM) để tránh tai nạn xe tự hành theo thời gian thực

Cognitive Kernel-Pro: Một khuôn khổ cho các tác nhân nghiên cứu sâu và đào tạo mô hình nền tảng tác nhân

Nhận dạng mục tiêu chủ động theo xác suất

Khi học bắt chước vượt trội hơn học tăng cường trong lập kế hoạch hành động phẫu thuật

Công bằng dựa trên nỗ lực: Kết hợp khái niệm nỗ lực lấy con người làm trung tâm, dựa trên triết lý vào các chỉ số công bằng thuật toán

UnrealZoo: Làm phong phú thế giới ảo chân thực như ảnh cho AI hiện thân

Lý luận Hệ thống~2 cho sự liên kết giữa con người và AI: Tính tổng quát và khả năng thích ứng thông qua ARC-AGI

Thời gian là một tính năng: Khai thác động lực thời gian trong các mô hình ngôn ngữ khuếch tán

ĐàO tạo - Chỉnh sửa màu hướng dẫn bằng văn bản miễn phí với Multimodal Diffusion Transformer

Hướng tới suy luận thần kinh phổ quát

SPARC: Mô hình truy xuất đa sở thích thích ứng xác suất mềm thông qua sổ mã cho hệ thống đề xuất

Hợp nhất đa phương thức nhận biết sự không chắc chắn động để theo dõi sức khỏe ngoài trời

Liệu chúng ta có thể tin tưởng AI sẽ quản lý AI? Đánh giá hiệu suất LLM trong các kỳ thi về Quyền riêng tư và Quản lý AI

Dấu vết không gian: Nâng cao mô hình VLA với sự hiểu biết về không gian-thời gian

E3-Viết lại: Học cách viết lại SQL để có khả năng thực thi, tính tương đương và hiệu quả

Khi Deepfake trông thật: Phát hiện khuôn mặt do AI tạo ra với dữ liệu chưa được gắn nhãn do những thách thức về chú thích

Các cuộc tấn công và phòng thủ chống lại dấu vân tay LLM

LyS tại SemEval 2025 Nhiệm vụ 8: Tạo mã Zero-Shot cho QA dạng bảng

Sự chú ý thưa thớt hồi cứu để tạo ra bối cảnh dài hiệu quả

Lý luận nghịch đảo hợp lý

Một chút tự do có thể tạo nên bước tiến dài: Thuật toán cổ điển và lượng tử cho học tăng cường theo mô hình tạo sinh

Created by

Haebom

Tác giả

Andris Ambainis, Joao F. Doriguello, Debbie Lim

Phác thảo

Bài báo này đề xuất các thuật toán trực tuyến cổ điển và lượng tử mới cho các quy trình quyết định Markov phần thưởng trung bình (MDP) hữu hạn và vô hạn. Thuật toán được đề xuất dựa trên mô hình học tăng cường (RL) kết hợp khám phá-sinh sản, trong đó các tác nhân có thể tự do tương tác với môi trường, đôi khi thông qua lấy mẫu sinh sản (tức là truy cập vào một "trình mô phỏng"). Bằng cách sử dụng cả thuật toán cổ điển và lượng tử để ước tính các chính sách tối ưu trong các mô hình sinh sản, chúng tôi chứng minh rằng bằng cách tính toán trực tiếp và sử dụng các chính sách tối ưu, chúng tôi tránh được một số mô hình RL, chẳng hạn như "lạc quan trong điều kiện bất định" và "lấy mẫu hậu nghiệm", và thu được các giới hạn hối tiếc tốt hơn so với các nghiên cứu trước đây. Đối với các MDP hữu hạn, thuật toán lượng tử thu được một giới hạn hối tiếc chỉ phụ thuộc logarit vào số bước thời gian T, do đó vượt qua giới hạn cổ điển $O(\sqrt{T})$. Điều này phù hợp với sự phụ thuộc thời gian của các nghiên cứu lượng tử trước đây của Ganguly và cộng sự (arXiv'23) và Zhong và cộng sự. (ICML'24), nhưng với sự phụ thuộc được cải thiện vào các tham số khác, chẳng hạn như kích thước không gian trạng thái S và kích thước không gian hành động A. Đối với các MDP chân trời vô hạn, ranh giới cổ điển và lượng tử vẫn duy trì sự phụ thuộc $O(\sqrt{T})$, nhưng có hệ số S và A tốt hơn. Tuy nhiên, chúng tôi đề xuất một phép đo hối tiếc mới cho các MDP chân trời vô hạn, chứng minh rằng các thuật toán lượng tử có hối tiếc $\operatorname{poly}\log{T}$ tốt hơn theo cấp số nhân so với các thuật toán cổ điển. Cuối cùng, chúng tôi tổng quát hóa tất cả các kết quả thành không gian trạng thái compact.

Takeaways, Limitations

•

_____T24707____-:

◦

Chúng tôi trình bày một thuật toán lượng tử vượt qua giới hạn cổ điển $O(\sqrt{T})$ trong MDP có chân trời hữu hạn.

◦

Tránh mô hình của các thuật toán học tăng cường hiện có (lạc quan, lấy mẫu sau) và tính toán trực tiếp chính sách tối ưu để cải thiện ranh giới hối tiếc.

◦

Một thước đo hối tiếc mới cho MDP có đường chân trời vô hạn và đạt được $\operatorname{poly}\log{T}$ hối tiếc cho các thuật toán lượng tử.

◦

Tổng quát hóa kết quả thành không gian trạng thái nhỏ gọn.

•

Limitations:

◦

Giả định khả năng tiếp cận các mô hình tạo sinh (mô phỏng). Cần nghiên cứu thêm để xác định khả năng ứng dụng của chúng trong môi trường thực tế.

◦

Cần có thêm nghiên cứu về việc triển khai thực tế và đánh giá hiệu suất của các thuật toán lượng tử.

◦

Tính tối ưu cho một thiết lập vấn đề cụ thể có thể không được đảm bảo. (Ngầm định Limitations)

Xem PDF

Made with Slashpage