Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

RotBench: Đánh giá các mô hình ngôn ngữ lớn đa phương thức trong việc xác định độ xoay hình ảnh

Tỷ lệ thời gian đầu vào

CRED-SQL: Nâng cao khả năng phân tích cú pháp văn bản sang SQL của cơ sở dữ liệu quy mô lớn trong thế giới thực thông qua mô tả thực thi và truy xuất cụm

STEM: Đánh giá năng lực tương đối hiệu quả của LLM thông qua các mẫu chuyển đổi có cấu trúc

AdaRing: Hướng tới khả năng thích ứng ngôn ngữ thị giác siêu nhẹ thông qua phân tích vòng tenxơ xuyên lớp

AI thiên vị cải thiện khả năng ra quyết định của con người nhưng lại làm giảm lòng tin

MAViS: Một khuôn khổ đa tác nhân cho việc kể chuyện video dài

ExpVG: Nghiên cứu không gian thiết kế của nền tảng trực quan trong mô hình ngôn ngữ lớn đa phương thức

MetAdv: Nền tảng thử nghiệm đối kháng thống nhất và tương tác dành cho xe tự hành

ETA: Điều chỉnh thời gian thử nghiệm dựa trên năng lượng để hoàn thành độ sâu

Mở rộng Bộ ước tính độ sâu đơn sắc cơ bản sang Máy ảnh mắt cá với Mã thông báo hiệu chuẩn

Khi âm thanh hay trở nên đối nghịch: Bẻ khóa các mô hình ngôn ngữ âm thanh bằng đầu vào lành tính

CRINN: Học tăng cường tương phản cho tìm kiếm lân cận gần nhất

Khởi tạo lại trọng số so với đơn vị để duy trì tính dẻo trong mạng nơ-ron

Mỗi người một ý: Khám phá sự nhúng tối ưu trong RAG

Chưng cất tính năng là lựa chọn tốt hơn cho học tập liên bang không đồng nhất mô hình

TolerantECG: Mô hình nền tảng cho điện tâm đồ không hoàn hảo

DeepRetro: Khám phá con đường tổng hợp ngược bằng cách sử dụng lý luận LLM lặp lại

LoSiA: Hiệu quả tinh chỉnh cấp cao thông qua định vị và tối ưu hóa mạng con

Cấu trúc như tìm kiếm: Học hoán vị không giám sát cho tối ưu hóa tổ hợp

Tăng cường độ nhạy thời gian của mô hình ngôn ngữ lớn để khuyến nghị với điều chỉnh phản thực tế

Phân tích cảnh thính giác đa tác nhân

MinD: Học mô hình thế giới hệ thống kép để lập kế hoạch thời gian thực và phân tích rủi ro tiềm ẩn

AtmosMJ: Xem xét lại cơ chế Gating cho dự báo thời tiết AI vượt ra ngoài quy mô năm

ĐáNh giá chuẩn các mô hình chuỗi thời gian được đào tạo trước để dự báo giá điện

Spore in the Wild: Nghiên cứu điển hình về Spore.fun như một thí nghiệm tiến hóa trong môi trường mở với các tác nhân AI có chủ quyền trên Blockchain được bảo mật TEE

Phê bình-GRPO: Thúc đẩy lý luận LLM với ngôn ngữ tự nhiên và phản hồi số

Phục hồi thần kinh các khiếm khuyết xanh trong ảnh Autochrome lịch sử dựa trên dữ liệu tổng hợp hoàn toàn

Mối quan ngại về bảo mật đối với các mô hình ngôn ngữ lớn: Một cuộc khảo sát

ĐịNh dạng dữ liệu chung (CDF): Định dạng chuẩn cho dữ liệu trận đấu trong bóng đá (Bóng đá)

Bộ biến đổi một lớp được chứng minh là tối ưu cho suy luận trong ngữ cảnh và học tập liên kết phân phối trong các nhiệm vụ dự đoán mã thông báo tiếp theo

FMSD-TTS: Tổng hợp văn bản thành giọng nói đa phương ngữ nhiều người nói ít lần để tạo bộ dữ liệu giọng nói \"U-Tsang, Amdo và Kham

Lượng hóa sự không chắc chắn cho các mô hình ngôn ngữ: Một bộ hộp đen, hộp trắng, thẩm phán LLM và người chấm điểm tổng hợp

ẢO giác và trích xuất thông tin quan trọng trong văn bản y khoa: Đánh giá toàn diện về các mô hình ngôn ngữ lớn nguồn mở

Khung khái niệm cho các hệ thống quyết định dựa trên AI trong cơ sở hạ tầng quan trọng

Hành động chi phối trong trò chơi thông tin không hoàn hảo

Thực hành: Phân đoạn các dấu hiệu riêng lẻ từ các chuỗi liên tục

PathGPT: Định hình lại Đề xuất Đường dẫn như một Nhiệm vụ Tạo Ngôn ngữ Tự nhiên với Mô hình Ngôn ngữ Tăng cường Truy xuất

Tăng cường việc tạo biểu đồ thành mã trong MLLM thông qua tinh chỉnh theo hướng dẫn ưu tiên kép

JudgeLRM: Mô hình lý luận lớn như một thẩm phán

Trí tuệ nhân tạo trong giáo dục K-12: Sáng kiến CyberScholar

Tạo ngôn ngữ tự nhiên từ sự kiện trực quan: Câu hỏi mở quan trọng và hiện đại

Học tăng cường dựa trên hành động lai cho lái xe tự động tương thích đa mục tiêu

Liệu chưng cất tương phản có đủ để học các biểu diễn 3D toàn diện không?

Action Engine: Tạo quy trình làm việc tự động trong FaaS

Tầm quan trọng của ngôn ngữ mô hình hóa trực quan trong kỹ thuật phần mềm tạo sinh

Phong cách hóa đầu 3D bảo toàn bản sắc với chưng cất điểm số đa chế độ xem

SLED: Giải mã sự tiến hóa của Logits tự thân để cải thiện tính xác thực trong các mô hình ngôn ngữ lớn

Kiểm tra các thành phần của lý thuyết lược đồ chú ý trong mạng nơ-ron nhân tạo

Một chút dữ liệu của con người có thể đi một chặng đường dài

Source2Synth: Tạo và quản lý dữ liệu tổng hợp dựa trên nguồn dữ liệu thực tế

Xóa bỏ định kiến xã hội cho chương trình Thạc sĩ Luật Đa phương thức Công bằng

Tiêu chuẩn toàn diện về GNN quang phổ: Tác động đến hiệu quả, bộ nhớ và hiệu suất

LoRA-XS: Thích ứng bậc thấp với số lượng tham số cực kỳ nhỏ

Cải thiện trò chuyện hướng đến chẩn đoán trầm cảm bằng cách theo dõi trạng thái tâm lý

ƯớC tính giới hạn dưới của sự tiêu tán năng lượng cho học tập trong bộ nhớ hình thái thần kinh

ĐừNg Nhấn Nút! Khám phá Rủi ro Rò rỉ Dữ liệu trong Học máy và Học chuyển giao

Hướng tới việc sử dụng bản đồ nổi bật để giải thích các điện tâm đồ chất lượng thấp cho người dùng cuối

Sự hội tụ Nash của các thuật toán học tập dựa trên trung bình trong đấu giá giá đầu tiên

TASER: Các tác nhân bảng để trích xuất và đề xuất theo sơ đồ

Mô hình hóa mạch logic quan hệ cho mạng tích chập đồ thị đảo ngược

EvoCurr: Chương trình giảng dạy tự phát triển với khả năng tạo mã hành vi cho việc ra quyết định phức tạp

KIRETT: Trợ lý điều trị thông minh dựa trên biểu đồ kiến thức cho hoạt động cứu hộ thông minh

EoH-S: Sự phát triển của tập hợp Heuristic sử dụng LLM để thiết kế Heuristic tự động

SE-Agent: Tối ưu hóa quỹ đạo tự tiến hóa trong suy luận đa bước với các tác nhân dựa trên LLM

ĐáNh giá chuẩn các đường ống tăng cường truy xuất vectơ, đồ thị và lai (RAG) cho mạng truy cập vô tuyến mở (ORAN)

Tiêu chuẩn AI NordDRG cho các mô hình ngôn ngữ lớn

Gradient chính sách bộ nhớ hữu hạn mạnh mẽ cho POMDP mô hình ẩn

Luật mở rộng quy mô của Agent RL: Agent RL với khả năng thực thi mã tự phát để giải quyết vấn đề toán học

Học không giám sát cho phép gán bậc hai

Trả lời câu hỏi tăng cường truy xuất theo tham chiếu trên các tài liệu độc quyền không đồng nhất

Xây dựng đồ thị chuẩn bằng các mô hình ngôn ngữ lớn để suy luận theo hướng mạch lạc

Lượng tử hóa đáp ứng dLLM: Một nghiên cứu có hệ thống về lượng tử hóa sau đào tạo cho LLM khuếch tán

Học cấu trúc đồ thị với nút thắt thông tin đồ thị tạm thời cho học biểu diễn quy nạp

$TIME[t] \subseteq SPACE[O(\sqrt{t})]$ thông qua Nén chiều cao cây

Suy luận chuỗi suy nghĩ dài xuyên ngôn ngữ

Từ công cụ thụ động đến đồng đội nhận thức xã hội: Khung khái niệm cho AI tác nhân trong học tập hợp tác giữa con người và AI

ĐáNh giá việc tạo ra dữ liệu tăng cường truy xuất so với dữ liệu đầu vào ngữ cảnh dài cho lý luận lâm sàng trên EHR

TransLight: Điều khiển ánh sáng tùy chỉnh theo hướng dẫn hình ảnh với công nghệ tách ghép tạo sinh

DINOv3 với chương trình đào tạo thời gian thử nghiệm để đăng ký hình ảnh y tế

MF-LPR$^2$: Khôi phục và nhận dạng hình ảnh biển số xe đa khung bằng luồng quang học

TransLLM: Khung nền tảng đa nhiệm thống nhất cho giao thông đô thị thông qua tính năng nhắc nhở có thể học được

PepThink-R1: Thạc sĩ Luật về Tối ưu hóa Peptide Vòng có thể diễn giải bằng CoT SFT và Học tăng cường

Tạo ra các bài toán vật lý đẳng cấu đáng tin cậy bằng ChatGPT với chuỗi nhắc nhở và sử dụng công cụ

Tạo phân tử được kiểm soát đa phương thức với mô hình ngôn ngữ khuếch tán

ĐáNh giá sự liên kết đa ngôn ngữ và chuyển đổi mã trong LLM thông qua suy luận ngôn ngữ tự nhiên tổng hợp

AFABench: Một khuôn khổ chung để đánh giá hiệu suất thu thập tính năng chủ động

Trò chơi Emerson-Lei và Manna-Pnueli cho tổng hợp LTLf+ và PPLTL+

Cấy ghép rồi tái tạo: Một mô hình mới để tăng cường dữ liệu văn bản

ShizhenGPT: Hướng tới chương trình Thạc sĩ Y học Cổ truyền Đa phương thức

Học trong trò chơi Stackelberg đa mục tiêu lặp lại với thao tác trả thưởng

Kẻ thù của gian lận: Các cuộc tấn công đối nghịch có thể chuyển giao trong phát hiện gian lận thẻ tín dụng

ECHO: Mã hóa phân cấp nhận biết tần số cho tín hiệu có độ dài thay đổi

ELATE: Mô hình ngôn ngữ tiến hóa cho kỹ thuật chuỗi thời gian tự động

OneLoc: Hệ thống đề xuất tạo ra nhận biết địa lý cho dịch vụ cuộc sống địa phương

Liệu các chuyên viên LLM có thể giải quyết các nhiệm vụ hợp tác? Một nghiên cứu về lập kế hoạch và phối hợp ứng phó với tình huống khẩn cấp

Nghiên cứu về tỷ lệ tín hiệu bất biến trên méo tiếng trong tách giọng nói với tham chiếu nhiễu

UST-SSM: Mô hình không gian trạng thái không gian-thời gian thống nhất cho mô hình hóa video đám mây điểm

Một khuôn khổ đồng phát triển phần cứng-phần mềm nguồn mở cho phép các hệ thống tăng tốc đa năng hiệu quả

Mamba2 gặp Silence: Phân tách nguồn giọng hát mạnh mẽ cho các vùng thưa thớt

Học trong trò chơi Stackelberg đa mục tiêu lặp lại với thao tác trả thưởng

Created by

Haebom

Tác giả

Phurinut Srisawad, Juergen Branke, Long Trần-Thành

Phác thảo

Bài báo này nghiên cứu về thao túng phần thưởng, một chiến lược mà người lãnh đạo có thể tác động một cách chiến lược đến phản ứng xác định tối ưu của người theo sau, ví dụ, bằng cách chia sẻ phần thưởng của chính họ, trong một trò chơi Stackelberg đa mục tiêu lặp lại. Hàm tiện ích của người theo sau (biểu thị sở thích của họ đối với nhiều mục tiêu) được giả định là tuyến tính, mặc dù chưa biết, và các tham số trọng số của nó phải được suy ra thông qua các tương tác. Điều này đặt ra cho người lãnh đạo một nhiệm vụ ra quyết định tuần tự: cân bằng giữa việc tối đa hóa tiện ích tức thời với việc tạo ra sở thích. Bài báo này chính thức hóa vấn đề này và đề xuất một chính sách thao túng dựa trên tiện ích kỳ vọng (EU) và tiện ích kỳ vọng dài hạn (longEU). Chiến lược này hướng dẫn người lãnh đạo lựa chọn hành động và cung cấp các động lực bằng cách cân bằng lợi ích ngắn hạn với tác động dài hạn. Chúng tôi chứng minh rằng longEU hội tụ về thao túng tối ưu trong các tương tác lặp lại vô hạn. Kết quả thực nghiệm trong môi trường cơ sở cho thấy phương pháp của chúng tôi nâng cao tiện ích tích lũy của người lãnh đạo đồng thời thúc đẩy các kết quả cùng có lợi, ngay cả khi không có sự đàm phán rõ ràng hoặc kiến thức trước về hàm tiện ích của người theo sau.

Takeaways, Limitations

•

Takeaways:

◦

Một cách tiếp cận mới đối với vấn đề thao túng phần thưởng trong trò chơi Stackelberg đa mục tiêu.

◦

Chứng minh khả năng thao túng phần thưởng hiệu quả mà không cần biết trước về hàm tiện ích của người theo dõi.

◦

Đề Xuất các chính sách thao túng dựa trên tiện ích dự kiến (EU) và tiện ích dự kiến dài hạn (longEU) và xác minh hiệu quả của chúng.

◦

Chứng minh rằng các tương tác dài hạn hội tụ thành hoạt động tối ưu

◦

Trình bày chiến lược thao túng bồi thường nhằm thúc đẩy kết quả có lợi cho cả hai bên.

•

Limitations:

◦

Giả sử rằng hàm tiện ích của người theo dõi là tuyến tính

◦

Giả sử các tương tác lặp lại vô hạn (trong thực tế, các tương tác hữu hạn)

◦

Thiếu sự cân nhắc đến các loại hành vi khác nhau của người theo dõi (ví dụ: hành vi phi lý)

◦

Cần nghiên cứu thêm để ứng dụng vào thực tế.

Xem PDF

Made with Slashpage