Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

MỞ ĐẦU: Một chuẩn mực được thiết kế để yêu cầu sự hiểu biết và lý luận toàn cầu trong bối cảnh dài

Preacher: Hệ thống Agentic chuyển đổi từ giấy sang video

ẢO giác so với diễn giải: suy nghĩ lại về độ chính xác và độ tin cậy trong trích xuất dữ liệu hỗ trợ AI để tổng hợp kiến thức

Dự báo thời tiết phi tập trung thông qua học máy phân tán và xác thực mô hình dựa trên blockchain

AI thiên vị cải thiện khả năng ra quyết định của con người nhưng lại làm giảm lòng tin

Bản dịch tính năng được cá nhân hóa để nhận dạng biểu thức: Phương pháp chuyển đổi miền không cần nguồn hiệu quả

Một khuôn khổ thần kinh tượng trưng cho việc phát hiện tấn công nhận thức có thể diễn giải trong thực tế tăng cường

IAD-R1: Tăng cường lý luận nhất quán trong phát hiện bất thường công nghiệp

EvaDrive: Tối ưu hóa chính sách đối nghịch tiến hóa cho việc lái xe tự động toàn diện

Hiểu về mặt lý thuyết học tập trong ngữ cảnh dựa trên bộ biến đổi để tối ưu hóa CSMA

ASPD: Mở khóa giải mã nối tiếp-song song thích ứng bằng cách khám phá tính song song nội tại trong LLM

BiasGym: Những thành kiến LLM tuyệt vời và cách tìm ra (và loại bỏ) chúng

Yan: Thế hệ video tương tác cơ bản

M3-Net: Mô hình MLP không đồ thị hiệu quả về mặt chi phí để dự đoán lưu lượng truy cập

Mạng không dây vùng cơ thể thích ứng 6G do LLM điều khiển: Khảo sát và Khung

ẢO tưởng về sự tiến bộ: Đánh giá lại khả năng phát hiện ảo giác trong LLM

Hiểu về động lực của năng lực mô hình trong học tập liên tục

WeChat-YATT: Một công cụ huấn luyện RLHF đơn giản, có khả năng mở rộng và cân bằng

Cải thiện việc tạo tiêu đề cá nhân hóa thông qua việc loại bỏ nhiễu sở thích giả mạo từ phản hồi ngầm định

Chương trình học động nhận thức độ cứng để nhận dạng cảm xúc đa phương thức mạnh mẽ với các phương thức còn thiếu

Tiếng vọng của Tự động hóa: Việc sử dụng ngày càng nhiều LLM trong việc Làm báo

SIFThinker: Tập trung hình ảnh có nhận thức không gian cho tư duy thị giác

Shuffle-R1: Khung RL hiệu quả cho các mô hình ngôn ngữ lớn đa phương thức thông qua Shuffle động lấy dữ liệu làm trung tâm

Hướng tới AI đại diện thể hiện: Đánh giá và phân loại tính tự chủ và tương tác của robot do LLM và VLM điều khiển

Vị trí: Mô hình Hội nghị AI Hiện tại Không Bền vững! Chẩn đoán Khủng hoảng Hội nghị AI Tập trung

MSC: Bộ dữ liệu video về động vật hoang dã biển với phân đoạn thực tế và chú thích cấp độ clip

Mô hình ngôn ngữ tự hỏi

Khám phá ứng dụng của Trả lời câu hỏi trực quan (VQA) để giám sát hoạt động lớp học

Oranits: Phân công nhiệm vụ và dỡ bỏ nhiệm vụ trong ITS dựa trên Open RAN bằng cách sử dụng học siêu thuật toán và học tăng cường sâu

DeepWriter: Trợ lý viết đa phương thức dựa trên cơ sở dữ liệu kiến thức ngoại tuyến

Lựa chọn Coreset theo tỷ lệ lớp cho dữ liệu có thể phân tách theo độ khó

Trả lời câu hỏi về không gian kho với chuyên viên LLM

CodeJudgeBench: Đánh giá chuẩn LLM-as-a-Judge cho các nhiệm vụ lập trình

AmpLyze: Mô hình học sâu để dự đoán nồng độ tan máu

EXAONE Path 2.0: Mô hình nền tảng bệnh lý với giám sát toàn diện

GLM-4.1V-Suy nghĩ và GLM-4.5V: Hướng tới lý luận đa phương thức linh hoạt với học tăng cường có khả năng mở rộng

Tại sao các chương trình Thạc sĩ Luật Nguồn mở lại gặp khó khăn trong việc phân tích dữ liệu? Một nghiên cứu thực nghiệm có hệ thống

Bộ mã hóa tự động mặt nạ đồ thị nhận biết sự khác biệt

Tấn công tạo sinh dựa trên cấu trúc ngữ nghĩa để tăng cường khả năng chuyển giao đối nghịch

So sánh định lượng các kỹ thuật tinh chỉnh cho các mô hình khuếch tán tiềm ẩn được đào tạo trước trong quá trình tạo ảnh SAR không nhìn thấy được

PromptTSS: Một phương pháp tiếp cận dựa trên lời nhắc cho phân đoạn chuỗi thời gian đa chi tiết tương tác

15.500 giây: Phân loại UAV tinh gọn sử dụng EfficientNet và tinh chỉnh nhẹ

Các cuộc tấn công nhanh chóng tiết lộ việc loại bỏ kiến thức hời hợt trong các phương pháp bỏ học

Cắt tỉa dữ liệu bằng cách tối đa hóa thông tin

CCL-LGS: Học tập mã tương phản cho ngôn ngữ 3D Gaussian Splatting

Mối quan ngại về bảo mật đối với các mô hình ngôn ngữ lớn: Một cuộc khảo sát

Tối ưu hóa lượng tử đã sẵn sàng chưa? Nỗ lực hướng tới nén mạng nơ-ron bằng điện toán lượng tử đoạn nhiệt

Giải mã CHAD lặp đi lặp lại

FreeKV: Tăng cường khả năng truy xuất bộ nhớ đệm KV để suy luận LLM hiệu quả

LaDi-WM: Mô hình thế giới dựa trên khuếch tán tiềm ẩn cho thao tác dự đoán

Quay theo trình tự nhóm: Tối ưu hóa phép biến đổi quay để lượng tử hóa miễn phí

Máy đánh bạc đa tay có ngân sách thích ứng cho IoT với các ràng buộc tài nguyên động

Máy biến đổi thị giác trong nông nghiệp chính xác: Một khảo sát toàn diện

Dự báo chuỗi thời gian hướng mục tiêu: Thiết kế khung nền tảng

CAPTURe: Đánh giá khả năng suy luận không gian trong các mô hình ngôn ngữ thị giác thông qua việc đếm đối tượng bị che khuất

FinSage: Hệ thống RAG đa năng cho việc nộp hồ sơ tài chính - Trả lời câu hỏi

GraspClutter6D: Bộ dữ liệu thực tế quy mô lớn cho nhận thức và nắm bắt mạnh mẽ trong các cảnh lộn xộn

Hyperflux: Việc cắt tỉa cho thấy tầm quan trọng của trọng lượng

ToolACE-R: Đào tạo lặp lại nhận biết mô hình và tinh chỉnh thích ứng cho việc học công cụ

UniOcc: Một chuẩn mực thống nhất cho dự báo và dự đoán về tình trạng chiếm dụng trong xe tự hành

VectorFit: Tinh chỉnh vectơ thích ứng kỳ dị và vectơ thiên vị của các mô hình nền tảng được đào tạo trước

BitDecoding: Mở khóa lõi Tensor cho LLM ngữ cảnh dài với bộ đệm KV bit thấp

Phân tích tình cảm có thể giải thích được với DeepSeek-R1: Hiệu suất, Hiệu quả và Học tập ít lần

Học tập liên tục cho nhiều phương thức

ĐưA MAPF tiến gần hơn đến thế giới thực: Nền tảng thử nghiệm thực tế đa tác nhân có khả năng mở rộng (SMART)

LED-Merging: Giảm thiểu xung đột an toàn-tiện ích trong mô hình sáp nhập với vị trí-bầu cử-không giao nhau

Tăng cường tổng quát hóa chéo vấn đề trong bộ giải kết hợp thần kinh dựa trên khuếch tán thông qua điều chỉnh thời gian suy luận

Chia sẻ nhịp điệu: Một mô hình lấy cảm hứng từ sinh học cho việc học thích ứng không cần chỉnh sửa trong mạng nơ-ron

ĐO lường tính đa dạng trong các tập dữ liệu tổng hợp

Mô hình phản hồi trễ với các hàm ảnh hưởng

Rollout Roulette: Một phương pháp suy luận xác suất để mở rộng thời gian suy luận của LLM bằng phương pháp Monte Carlo dựa trên hạt

CLoQ: Nâng cao khả năng tinh chỉnh LLM lượng tử thông qua khởi tạo LoRA hiệu chuẩn

Fleurs-SLU: Một chuẩn mực đa ngôn ngữ cho khả năng hiểu ngôn ngữ nói

ODE thần kinh có thể diễn giải để khám phá mạng lưới điều hòa gen dưới sự nhiễu loạn

Máy biến áp nhẹ với chức năng chú ý chéo chỉ pha để xác thực sinh trắc học bất biến với ánh sáng

Hiểu các mô hình thị giác dựa trên máy biến áp thông qua đảo ngược

INSIGHT: Phân tích hình ảnh y tế được giám sát yếu có thể giải thích được

Visual SLAMMOT xem xét nhiều mô hình chuyển động

Một phương pháp tiếp cận không cần đào tạo để chuyển giao phong cách âm nhạc với các mô hình khuếch tán tiềm ẩn

Tối ưu hóa đa mục tiêu trong thiết kế CPU - Khám phá không gian: Chỉ cần chú ý là đủ

DiRW: Học đồ thị có nhận biết đường dẫn cho Heterophily

ĐA dạng hóa các hành vi chính sách với sự tò mò về hành vi bên ngoài

Sự diễn đạt bằng lời của bộ nhớ theo từng giai đoạn sử dụng các biểu diễn phân cấp của trải nghiệm robot suốt đời

Mạng nơ-ron tổng quát hóa trên dữ liệu có độ phức tạp thấp

Kiểm tra tính nhất quán dựa trên kiến thức của các mô hình ngôn ngữ lớn

Thuật toán tập hợp an toàn ngầm định cho việc học tăng cường an toàn có thể chứng minh được

Một mô hình dựa trên bộ biến đổi có thể giải thích được để phát hiện email lừa đảo: Phương pháp tiếp cận mô hình ngôn ngữ lớn

Giảm chi phí truyền thông cho việc đếm đồ thị con theo quyền riêng tư vi phân cục bộ thông qua hàm băm

Lỗi tính toán và suy luận toán học của các mô hình ngôn ngữ lớn

OpenCUA: Nền tảng mở cho các tác nhân sử dụng máy tính

Báo cáo kỹ thuật Compass-Thinker-7B

TextQuests: Các chương trình LLM về trò chơi điện tử dựa trên văn bản có tốt không?

Về định nghĩa của trí thông minh

Vượt xa độ chính xác: Độ nhạy siêu nhận thức của AI cải thiện việc ra quyết định được hỗ trợ bởi AI như thế nào

LAPO: Nội tâm hóa hiệu quả suy luận thông qua tối ưu hóa chính sách thích ứng với độ dài

FAIRGAME: Một khuôn khổ cho việc nhận dạng thiên kiến của các tác nhân AI bằng cách sử dụng Lý thuyết trò chơi

MedRep: Biểu diễn khái niệm y tế cho các mô hình Quỹ hồ sơ sức khỏe điện tử chung

Một trình tối ưu hóa khóa ngẫu nhiên cho tối ưu hóa tổ hợp

Người học liên kết đào tạo chéo để khái quát hóa mạnh mẽ trong điều kiện dữ liệu không đồng nhất

Tận dụng các mô hình ngôn ngữ lớn để đưa ra phán quyết có liên quan trong việc truy xuất vụ án pháp lý

BitDecoding: Mở khóa lõi Tensor cho LLM ngữ cảnh dài với bộ đệm KV bit thấp

Created by

Haebom

Tác giả

Dayou Du, Shijie Cao, Jianyi Cheng, Luo Mai, Ting Cao, Mao Yang

Phác thảo

Bài báo này đề xuất BitDecoding, một hệ thống suy luận mới tận dụng bộ nhớ đệm KV bit thấp để giải quyết nhu cầu bộ nhớ và băng thông ngày càng tăng của suy luận mô hình ngôn ngữ quy mô lớn (LLM) ngữ cảnh dài. BitDecoding cho phép giải mã bộ nhớ đệm KV bit thấp hiệu quả bằng cách kết hợp tận dụng lõi CUDA và lõi Tensor. Hệ thống bao gồm các kỹ thuật như tự động tạo ra các bố cục tối ưu cho việc sử dụng và giải lượng tử hóa lõi Tensor thông qua các chiến lược song song hóa cấp độ warp. Hệ thống cũng cung cấp hỗ trợ hệ thống thống nhất thông qua một mô-đun chuyển đổi truy vấn hỗ trợ nhiều biến thể chú ý khác nhau, một hạt nhân lượng tử hóa hiệu suất cao hỗ trợ việc mở rộng theo từng tensor và từng kênh được sử dụng trong nhiều thuật toán lượng tử hóa khác nhau, và một hạt nhân giải lượng tử hóa với một đường ống được xác định bằng phần mềm để điều phối việc thực thi CUDA và lõi Tensor. Các đánh giá trên RTX 4090, A100 và H100 cho thấy BitDecoding mang lại tốc độ giải mã nhanh hơn tới 7,5 lần, 4,8 lần và 8,9 lần so với FP16 FlashDecoding-v2, và vượt trội hơn hệ thống bitrate thấp QServe hiện đại tới 4,3 lần. Những cải tiến đáng kể cũng được ghi nhận đối với việc tạo ngữ cảnh dài, bao gồm giảm tới 3 lần độ trễ giải mã hàng loạt đơn trên LLaMA-3.1-8B với ngữ cảnh 128K. Mã nguồn có sẵn trên GitHub.

Takeaways, Limitations

•

Takeaways:

◦

Chúng tôi đã cải thiện đáng kể hiệu suất giải mã bộ đệm KV bit thấp bằng cách tận dụng lõi CUDA và lõi Tensor song song.

◦

Chúng tôi đã xây dựng một hệ thống tích hợp có khả năng tương thích với nhiều thuật toán lượng tử hóa và LLM khác nhau.

◦

Chúng tôi đã cải thiện đáng kể tốc độ và hiệu quả của suy luận LLM dài hạn, tăng tiềm năng ứng dụng thực tế của nó.

◦

Kết quả thực nghiệm chứng minh rõ ràng tính ưu việt của phương pháp đề xuất.

•

Limitations:

◦

ĐượC tối ưu hóa cho kiến trúc GPU cụ thể, hiệu suất trên các kiến trúc khác có thể khác nhau.

◦

Có thể cần nghiên cứu thêm về hiệu suất tổng quát của các mô hình LLM khác nhau.

◦

Cần đánh giá hiệu suất cho ngữ cảnh có độ dài lớn hơn.

Xem PDF

Made with Slashpage