Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Cut2Next: Tạo cảnh quay tiếp theo thông qua điều chỉnh trong ngữ cảnh

DIVER: Một phương pháp tiếp cận nhiều giai đoạn để thu thập thông tin chuyên sâu về lý luận

Omni-Effects: Tạo hiệu ứng hình ảnh thống nhất và có thể kiểm soát theo không gian

Chimera: Sử dụng LLM đa tác nhân để mô phỏng mối đe dọa nội gián tự động

Klear-Reasoner: Nâng cao khả năng suy luận thông qua tối ưu hóa chính sách cắt giữ nguyên độ dốc

TurboBias: Universal ASR Context-Biasing được hỗ trợ bởi cây tăng cường cụm từ được tăng tốc bởi GPU

AMFT: Điều chỉnh các nhà lý luận LLM bằng cách học siêu việt sự cân bằng tối ưu giữa bắt chước và khám phá

LSDT: LLM - Bản sao kỹ thuật số ngữ nghĩa tăng cường cho quy hoạch cơ sở hạ tầng chuyên sâu về kiến thức thích ứng

Liệu các mô hình thiên vị có suy nghĩ thiên vị không?

Phát hiện sớm ung thư tuyến tụy bằng phương pháp học đa phương thức trên hồ sơ sức khỏe điện tử

LLM Unlearning mà không cần bộ dữ liệu được chuyên gia tuyển chọn

Bảng nhúng lớn đa diện để xếp hạng quảng cáo Pinterest

Echo: Tách rời suy luận và đào tạo để căn chỉnh RL quy mô lớn trên các đàn không đồng nhất

Cơ sở hạ tầng dịch tễ học: Khung chẩn đoán cho kiến thức hậu mạch lạc

RCR-Router: Định tuyến ngữ cảnh nhận biết vai trò hiệu quả cho các hệ thống LLM đa tác nhân với bộ nhớ có cấu trúc

Vị trí: Mô hình Hội nghị AI Hiện tại Không Bền vững! Chẩn đoán Khủng hoảng Hội nghị AI Tập trung

GTPO và GRPO-S: Định hình phần thưởng theo mã thông báo và cấp độ chuỗi với Entropy chính sách

Một vài từ có thể làm biến dạng đồ thị: Các cuộc tấn công đầu độc kiến thức vào thế hệ mô hình ngôn ngữ lớn được tăng cường truy xuất dựa trên đồ thị

Giải thích về các bộ phân loại chuỗi thời gian với PHAR: Trích xuất và hợp nhất quy tắc từ các thuộc tính sau hoc

Mô hình ngôn ngữ nhận thức vai trò để kiểm soát truy cập an toàn và theo ngữ cảnh trong các tổ chức

DynaSwarm: Lựa chọn cấu trúc đồ thị động cho hệ thống đa tác nhân dựa trên LLM

Học tập sau khi hoàn thành cho các mô hình ngôn ngữ

Các đại biểu thay thế, hãy tập hợp! Lựa chọn đại biểu thay thế tối ưu cho các cuộc họp của công dân

Kiểm tra Argus: Các mô hình ngôn ngữ lớn đa phương thức có sở hữu con mắt của Panoptes không?

RAGtifier: Đánh giá các phương pháp tạo RAG của các hệ thống RAG hiện đại cho cuộc thi SIGIR LiveRAG

Phân cụm tài liệu và mẫu không giám sát bằng cách sử dụng nhúng đa phương thức

Bản đồ tự tổ chức bão hòa

CulturalFrames: Đánh giá sự phù hợp kỳ vọng văn hóa trong các mô hình văn bản sang hình ảnh và các chỉ số đánh giá

ĐáNh giá hay không đánh giá: Sử dụng phán đoán của LLM để đánh giá mức độ liên quan của cụm từ khóa của nhà quảng cáo trên eBay

ĐIện toán cộng tác Edge-Cloud về trí tuệ phân tán và tối ưu hóa mô hình: Một khảo sát

Mj\"olnir: Một khuôn khổ tham số hóa học sâu cho mật độ sét đánh toàn cầu

Học tập liên bang: Khảo sát về trí tuệ cộng tác bảo vệ quyền riêng tư

Dân chủ của AI Mô hình thời tiết số: Một ví dụ về dự báo toàn cầu với FourCastNetv2 do Phòng thí nghiệm nghiên cứu của trường đại học thực hiện bằng GPU

Thế hệ tăng cường truy xuất với bằng chứng mâu thuẫn

SPIE: Đào tạo sau về mặt ngữ nghĩa và cấu trúc của các mô hình khuếch tán chỉnh sửa hình ảnh với phản hồi AI

ĐáNh giá niềm tin vào AI, con người và phản hồi đồng sản xuất giữa sinh viên đại học

ProtoECGNet: Học sâu có thể diễn giải dựa trên trường hợp để phân loại ECG đa nhãn với học tương phản

ChatBench: Từ điểm chuẩn tĩnh đến đánh giá AI-con người

Cắt tỉa tính toán thích ứng cho máy biến áp hay quên

Quấy rối tình dục do AI gây ra: Điều tra các đặc điểm theo ngữ cảnh và phản ứng của người dùng trước hành vi quấy rối tình dục của Chatbot đồng hành

CrossWordBench: Đánh giá khả năng suy luận của LLM và LVLM với khả năng tạo câu đố có thể kiểm soát

Nhận dạng thực thể có tên opioid (ONER-2025) từ Reddit

OSMa-Bench: Đánh giá ánh xạ ngữ nghĩa mở trong điều kiện ánh sáng khác nhau

TIDE: Bộ mã hóa tự động thưa thớt nhận biết thời gian cho bộ biến đổi khuếch tán có thể diễn giải trong quá trình tạo hình ảnh

Kiểm soát linh hoạt vùng tiền trán đối với trí nhớ phân đoạn vùng đồi hải mã để khái quát hóa theo mục tiêu

EvoP: Suy luận LLM mạnh mẽ thông qua việc cắt tỉa tiến hóa

ĐêM không ngủ, ngày ngọt ngào: Tạo người dùng tổng hợp có tình trạng sức khỏe để tương tác với đại lý huấn luyện thực tế

Chú thích cảm xúc Zero-shot trong ảnh khuôn mặt sử dụng mô hình đa phương thức lớn: Đánh giá chuẩn và triển vọng cho các phương pháp tiếp cận đa lớp, đa khung

PAR-AdvGAN: Cải thiện khả năng tấn công đối kháng bằng AdvGAN tự động hồi quy tiến bộ

Quên Dữ liệu và Tinh chỉnh đi! Chỉ cần Gấp Mạng để Nén

FBFL: Một phương pháp phối hợp dựa trên trường cho tính không đồng nhất của dữ liệu trong học tập liên bang

Hồi quy dựa trên giải mã

AdEval: Đánh giá động dựa trên sự liên kết để giảm thiểu ô nhiễm dữ liệu trong các mô hình ngôn ngữ lớn

Tổng hợp ngược được liên kết với nhà hóa học bằng cách tập hợp các mô hình thiên vị cảm ứng đa dạng

Mạng nơ-ron sâu thông tin thích ứng để phân tích dòng điện

Công cụ phân loại và phản ánh rủi ro để áp dụng mô hình ngôn ngữ lớn trong y tế công cộng

Học các mẫu giọng nói của khỉ Marmoset bằng bộ mã hóa tự động có mặt nạ để phân đoạn, phân loại và nhận dạng người gọi một cách mạnh mẽ

Truy cập phổ động cho các hệ thống D2D hỗ trợ giao tiếp tán xạ ngược xung quanh với học tăng cường lượng tử

Tổng quát hóa Zero-Shot của RL dựa trên tầm nhìn mà không cần tăng cường dữ liệu

Tạo chuyển động dựa trên siêu đồ thị với tương tác đa phương thức và suy luận quan hệ

3DFacePolicy: Hoạt ảnh khuôn mặt 3D điều khiển bằng âm thanh dựa trên điều khiển hành động

Dự đoán lợi nhuận cho việc lựa chọn danh mục đầu tư trung bình-phương sai: Cách học tập tập trung vào quyết định định hình các mô hình dự báo

OE3DIS: Phân đoạn phiên bản đám mây điểm 3D mở

VisionUnite: Mô hình nền tảng ngôn ngữ thị giác dành cho nhãn khoa được tăng cường kiến thức lâm sàng

DreamStory: Hình dung câu chuyện miền mở bằng phương pháp khuếch tán nhất quán đa chủ đề do LLM hướng dẫn

MEReQ: Max-Ent Residual-Q nghịch đảo RL cho sự căn chỉnh hiệu quả mẫu từ sự can thiệp

Hệ số thích ứng đa chiều cho tối ưu hóa quỹ đạo suy luận trong dòng chảy và khuếch tán

AIOS: Hệ điều hành đại lý LLM

Giữ bạn bè gần gũi: Tận dụng nhóm sở thích để tăng tốc quy trình suy luận AI

Từ phòng thí nghiệm đến hiện trường: Đánh giá thực tế về giải pháp video thông minh do AI điều khiển nhằm tăng cường an toàn cộng đồng

BELLA: Giải thích mô hình hộp đen bằng phép xấp xỉ tuyến tính cục bộ

Phần mềm trí tuệ nhân tạo được cấu trúc để mô phỏng trí nhớ làm việc, hình ảnh tinh thần và tính liên tục của tinh thần của con người

Phù hợp với các Ontology Logic Mô tả với ABox và Ví dụ Truy vấn

Diễn giải Fedspeak một cách tự tin: Khung nhận thức về sự bất định dựa trên LLM được hướng dẫn bởi các đường dẫn truyền chính sách tiền tệ

Thiết kế hệ thống hỗ trợ quyết định dựa trên phản hồi để can thiệp năng động vào học sinh

Các mô hình ngôn ngữ lớn không mô phỏng được tâm lý con người

IRL-VLA: Đào tạo Chính sách Tầm nhìn-Ngôn ngữ-Hành động thông qua Mô hình Thế giới Phần thưởng

InfiAlign: Một khuôn khổ có khả năng mở rộng và hiệu quả về mẫu để sắp xếp các LLM nhằm nâng cao khả năng lập luận

SEAgent: Đại lý sử dụng máy tính tự phát triển với khả năng học tập tự động từ kinh nghiệm

Mặt nạ động có thể đào tạo Chú ý thưa thớt

Hợp nhất dữ liệu cảm biến đa phương thức dựa trên cạnh với mô hình ngôn ngữ thị giác (VLM) để tránh tai nạn xe tự hành theo thời gian thực

Cognitive Kernel-Pro: Một khuôn khổ cho các tác nhân nghiên cứu sâu và đào tạo mô hình nền tảng tác nhân

Nhận dạng mục tiêu chủ động theo xác suất

Khi học bắt chước vượt trội hơn học tăng cường trong lập kế hoạch hành động phẫu thuật

Công bằng dựa trên nỗ lực: Kết hợp khái niệm nỗ lực lấy con người làm trung tâm, dựa trên triết lý vào các chỉ số công bằng thuật toán

UnrealZoo: Làm phong phú thế giới ảo chân thực như ảnh cho AI hiện thân

Lý luận Hệ thống~2 cho sự liên kết giữa con người và AI: Tính tổng quát và khả năng thích ứng thông qua ARC-AGI

Thời gian là một tính năng: Khai thác động lực thời gian trong các mô hình ngôn ngữ khuếch tán

ĐàO tạo - Chỉnh sửa màu hướng dẫn bằng văn bản miễn phí với Multimodal Diffusion Transformer

Hướng tới suy luận thần kinh phổ quát

SPARC: Mô hình truy xuất đa sở thích thích ứng xác suất mềm thông qua sổ mã cho hệ thống đề xuất

Hợp nhất đa phương thức nhận biết sự không chắc chắn động để theo dõi sức khỏe ngoài trời

Liệu chúng ta có thể tin tưởng AI sẽ quản lý AI? Đánh giá hiệu suất LLM trong các kỳ thi về Quyền riêng tư và Quản lý AI

Dấu vết không gian: Nâng cao mô hình VLA với sự hiểu biết về không gian-thời gian

E3-Viết lại: Học cách viết lại SQL để có khả năng thực thi, tính tương đương và hiệu quả

Khi Deepfake trông thật: Phát hiện khuôn mặt do AI tạo ra với dữ liệu chưa được gắn nhãn do những thách thức về chú thích

Các cuộc tấn công và phòng thủ chống lại dấu vân tay LLM

LyS tại SemEval 2025 Nhiệm vụ 8: Tạo mã Zero-Shot cho QA dạng bảng

Sự chú ý thưa thớt hồi cứu để tạo ra bối cảnh dài hiệu quả

Lý luận nghịch đảo hợp lý

GTPO và GRPO-S: Định hình phần thưởng theo mã thông báo và cấp độ chuỗi với Entropy chính sách

Created by

Haebom

Tác giả

Hongze Tan, Jianfei Pan

Phác thảo

Bài báo này khám phá việc sử dụng các thuật toán học tăng cường, chẳng hạn như Tối ưu hóa Chính sách Tương đối Nhóm (GRPO), để cải thiện hiệu suất suy luận của các mô hình ngôn ngữ quy mô lớn (LLM). Các GRPO hiện tại gặp phải những hạn chế trong các tác vụ suy luận dài hạn do phân bổ tín dụng thô, áp dụng cùng một phần thưởng cho tất cả các mã thông báo trong một chuỗi. Để giải quyết vấn đề này, chúng tôi đề xuất một kỹ thuật trọng số entropy động. Dựa trên ý tưởng cốt lõi rằng các mã thông báo có entropy cao trong câu trả lời đúng sẽ dẫn đến hiệu suất cao hơn, chúng tôi tạo ra các tín hiệu phần thưởng chi tiết hơn thông qua hai phương pháp. Đầu tiên, **Tối ưu hóa Chính sách Mã thông báo Nhóm (GTPO)** gán phần thưởng có trọng số entropy cho mỗi mã thông báo, đạt được phân bổ tín dụng chi tiết. Thứ hai, **Tối ưu hóa Chính sách Tương đối Nhóm Cấp Chuỗi (GRPO-S)** gán phần thưởng có trọng số entropy cho mỗi chuỗi dựa trên entropy mã thông báo trung bình của chuỗi đó. Kết quả thử nghiệm chứng minh rằng phương pháp được đề xuất vượt trội đáng kể so với mô hình cơ sở DAPO mạnh mẽ, xác nhận rằng cơ chế trọng số entropy là động lực chính của việc cải thiện hiệu suất.