Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

MỞ ĐẦU: Một chuẩn mực được thiết kế để yêu cầu sự hiểu biết và lý luận toàn cầu trong bối cảnh dài

Preacher: Hệ thống Agentic chuyển đổi từ giấy sang video

ẢO giác so với diễn giải: suy nghĩ lại về độ chính xác và độ tin cậy trong trích xuất dữ liệu hỗ trợ AI để tổng hợp kiến thức

Dự báo thời tiết phi tập trung thông qua học máy phân tán và xác thực mô hình dựa trên blockchain

AI thiên vị cải thiện khả năng ra quyết định của con người nhưng lại làm giảm lòng tin

Bản dịch tính năng được cá nhân hóa để nhận dạng biểu thức: Phương pháp chuyển đổi miền không cần nguồn hiệu quả

Một khuôn khổ thần kinh tượng trưng cho việc phát hiện tấn công nhận thức có thể diễn giải trong thực tế tăng cường

IAD-R1: Tăng cường lý luận nhất quán trong phát hiện bất thường công nghiệp

EvaDrive: Tối ưu hóa chính sách đối nghịch tiến hóa cho việc lái xe tự động toàn diện

Hiểu về mặt lý thuyết học tập trong ngữ cảnh dựa trên bộ biến đổi để tối ưu hóa CSMA

ASPD: Mở khóa giải mã nối tiếp-song song thích ứng bằng cách khám phá tính song song nội tại trong LLM

BiasGym: Những thành kiến LLM tuyệt vời và cách tìm ra (và loại bỏ) chúng

Yan: Thế hệ video tương tác cơ bản

M3-Net: Mô hình MLP không đồ thị hiệu quả về mặt chi phí để dự đoán lưu lượng truy cập

Mạng không dây vùng cơ thể thích ứng 6G do LLM điều khiển: Khảo sát và Khung

ẢO tưởng về sự tiến bộ: Đánh giá lại khả năng phát hiện ảo giác trong LLM

Hiểu về động lực của năng lực mô hình trong học tập liên tục

WeChat-YATT: Một công cụ huấn luyện RLHF đơn giản, có khả năng mở rộng và cân bằng

Cải thiện việc tạo tiêu đề cá nhân hóa thông qua việc loại bỏ nhiễu sở thích giả mạo từ phản hồi ngầm định

Chương trình học động nhận thức độ cứng để nhận dạng cảm xúc đa phương thức mạnh mẽ với các phương thức còn thiếu

Tiếng vọng của Tự động hóa: Việc sử dụng ngày càng nhiều LLM trong việc Làm báo

SIFThinker: Tập trung hình ảnh có nhận thức không gian cho tư duy thị giác

Shuffle-R1: Khung RL hiệu quả cho các mô hình ngôn ngữ lớn đa phương thức thông qua Shuffle động lấy dữ liệu làm trung tâm

Hướng tới AI đại diện thể hiện: Đánh giá và phân loại tính tự chủ và tương tác của robot do LLM và VLM điều khiển

Vị trí: Mô hình Hội nghị AI Hiện tại Không Bền vững! Chẩn đoán Khủng hoảng Hội nghị AI Tập trung

MSC: Bộ dữ liệu video về động vật hoang dã biển với phân đoạn thực tế và chú thích cấp độ clip

Mô hình ngôn ngữ tự hỏi

Khám phá ứng dụng của Trả lời câu hỏi trực quan (VQA) để giám sát hoạt động lớp học

Oranits: Phân công nhiệm vụ và dỡ bỏ nhiệm vụ trong ITS dựa trên Open RAN bằng cách sử dụng học siêu thuật toán và học tăng cường sâu

DeepWriter: Trợ lý viết đa phương thức dựa trên cơ sở dữ liệu kiến thức ngoại tuyến

Lựa chọn Coreset theo tỷ lệ lớp cho dữ liệu có thể phân tách theo độ khó

Trả lời câu hỏi về không gian kho với chuyên viên LLM

CodeJudgeBench: Đánh giá chuẩn LLM-as-a-Judge cho các nhiệm vụ lập trình

AmpLyze: Mô hình học sâu để dự đoán nồng độ tan máu

EXAONE Path 2.0: Mô hình nền tảng bệnh lý với giám sát toàn diện

GLM-4.1V-Suy nghĩ và GLM-4.5V: Hướng tới lý luận đa phương thức linh hoạt với học tăng cường có khả năng mở rộng

Tại sao các chương trình Thạc sĩ Luật Nguồn mở lại gặp khó khăn trong việc phân tích dữ liệu? Một nghiên cứu thực nghiệm có hệ thống

Bộ mã hóa tự động mặt nạ đồ thị nhận biết sự khác biệt

Tấn công tạo sinh dựa trên cấu trúc ngữ nghĩa để tăng cường khả năng chuyển giao đối nghịch

So sánh định lượng các kỹ thuật tinh chỉnh cho các mô hình khuếch tán tiềm ẩn được đào tạo trước trong quá trình tạo ảnh SAR không nhìn thấy được

PromptTSS: Một phương pháp tiếp cận dựa trên lời nhắc cho phân đoạn chuỗi thời gian đa chi tiết tương tác

15.500 giây: Phân loại UAV tinh gọn sử dụng EfficientNet và tinh chỉnh nhẹ

Các cuộc tấn công nhanh chóng tiết lộ việc loại bỏ kiến thức hời hợt trong các phương pháp bỏ học

Cắt tỉa dữ liệu bằng cách tối đa hóa thông tin

CCL-LGS: Học tập mã tương phản cho ngôn ngữ 3D Gaussian Splatting

Mối quan ngại về bảo mật đối với các mô hình ngôn ngữ lớn: Một cuộc khảo sát

Tối ưu hóa lượng tử đã sẵn sàng chưa? Nỗ lực hướng tới nén mạng nơ-ron bằng điện toán lượng tử đoạn nhiệt

Giải mã CHAD lặp đi lặp lại

FreeKV: Tăng cường khả năng truy xuất bộ nhớ đệm KV để suy luận LLM hiệu quả

LaDi-WM: Mô hình thế giới dựa trên khuếch tán tiềm ẩn cho thao tác dự đoán

Quay theo trình tự nhóm: Tối ưu hóa phép biến đổi quay để lượng tử hóa miễn phí

Máy đánh bạc đa tay có ngân sách thích ứng cho IoT với các ràng buộc tài nguyên động

Máy biến đổi thị giác trong nông nghiệp chính xác: Một khảo sát toàn diện

Dự báo chuỗi thời gian hướng mục tiêu: Thiết kế khung nền tảng

CAPTURe: Đánh giá khả năng suy luận không gian trong các mô hình ngôn ngữ thị giác thông qua việc đếm đối tượng bị che khuất

FinSage: Hệ thống RAG đa năng cho việc nộp hồ sơ tài chính - Trả lời câu hỏi

GraspClutter6D: Bộ dữ liệu thực tế quy mô lớn cho nhận thức và nắm bắt mạnh mẽ trong các cảnh lộn xộn

Hyperflux: Việc cắt tỉa cho thấy tầm quan trọng của trọng lượng

ToolACE-R: Đào tạo lặp lại nhận biết mô hình và tinh chỉnh thích ứng cho việc học công cụ

UniOcc: Một chuẩn mực thống nhất cho dự báo và dự đoán về tình trạng chiếm dụng trong xe tự hành

VectorFit: Tinh chỉnh vectơ thích ứng kỳ dị và vectơ thiên vị của các mô hình nền tảng được đào tạo trước

BitDecoding: Mở khóa lõi Tensor cho LLM ngữ cảnh dài với bộ đệm KV bit thấp

Phân tích tình cảm có thể giải thích được với DeepSeek-R1: Hiệu suất, Hiệu quả và Học tập ít lần

Học tập liên tục cho nhiều phương thức

ĐưA MAPF tiến gần hơn đến thế giới thực: Nền tảng thử nghiệm thực tế đa tác nhân có khả năng mở rộng (SMART)

LED-Merging: Giảm thiểu xung đột an toàn-tiện ích trong mô hình sáp nhập với vị trí-bầu cử-không giao nhau

Tăng cường tổng quát hóa chéo vấn đề trong bộ giải kết hợp thần kinh dựa trên khuếch tán thông qua điều chỉnh thời gian suy luận

Chia sẻ nhịp điệu: Một mô hình lấy cảm hứng từ sinh học cho việc học thích ứng không cần chỉnh sửa trong mạng nơ-ron

ĐO lường tính đa dạng trong các tập dữ liệu tổng hợp

Mô hình phản hồi trễ với các hàm ảnh hưởng

Rollout Roulette: Một phương pháp suy luận xác suất để mở rộng thời gian suy luận của LLM bằng phương pháp Monte Carlo dựa trên hạt

CLoQ: Nâng cao khả năng tinh chỉnh LLM lượng tử thông qua khởi tạo LoRA hiệu chuẩn

Fleurs-SLU: Một chuẩn mực đa ngôn ngữ cho khả năng hiểu ngôn ngữ nói

ODE thần kinh có thể diễn giải để khám phá mạng lưới điều hòa gen dưới sự nhiễu loạn

Máy biến áp nhẹ với chức năng chú ý chéo chỉ pha để xác thực sinh trắc học bất biến với ánh sáng

Hiểu các mô hình thị giác dựa trên máy biến áp thông qua đảo ngược

INSIGHT: Phân tích hình ảnh y tế được giám sát yếu có thể giải thích được

Visual SLAMMOT xem xét nhiều mô hình chuyển động

Một phương pháp tiếp cận không cần đào tạo để chuyển giao phong cách âm nhạc với các mô hình khuếch tán tiềm ẩn

Tối ưu hóa đa mục tiêu trong thiết kế CPU - Khám phá không gian: Chỉ cần chú ý là đủ

DiRW: Học đồ thị có nhận biết đường dẫn cho Heterophily

ĐA dạng hóa các hành vi chính sách với sự tò mò về hành vi bên ngoài

Sự diễn đạt bằng lời của bộ nhớ theo từng giai đoạn sử dụng các biểu diễn phân cấp của trải nghiệm robot suốt đời

Mạng nơ-ron tổng quát hóa trên dữ liệu có độ phức tạp thấp

Kiểm tra tính nhất quán dựa trên kiến thức của các mô hình ngôn ngữ lớn

Thuật toán tập hợp an toàn ngầm định cho việc học tăng cường an toàn có thể chứng minh được

Một mô hình dựa trên bộ biến đổi có thể giải thích được để phát hiện email lừa đảo: Phương pháp tiếp cận mô hình ngôn ngữ lớn

Giảm chi phí truyền thông cho việc đếm đồ thị con theo quyền riêng tư vi phân cục bộ thông qua hàm băm

Lỗi tính toán và suy luận toán học của các mô hình ngôn ngữ lớn

OpenCUA: Nền tảng mở cho các tác nhân sử dụng máy tính

Báo cáo kỹ thuật Compass-Thinker-7B

TextQuests: Các chương trình LLM về trò chơi điện tử dựa trên văn bản có tốt không?

Về định nghĩa của trí thông minh

Vượt xa độ chính xác: Độ nhạy siêu nhận thức của AI cải thiện việc ra quyết định được hỗ trợ bởi AI như thế nào

LAPO: Nội tâm hóa hiệu quả suy luận thông qua tối ưu hóa chính sách thích ứng với độ dài

FAIRGAME: Một khuôn khổ cho việc nhận dạng thiên kiến của các tác nhân AI bằng cách sử dụng Lý thuyết trò chơi

MedRep: Biểu diễn khái niệm y tế cho các mô hình Quỹ hồ sơ sức khỏe điện tử chung

Một trình tối ưu hóa khóa ngẫu nhiên cho tối ưu hóa tổ hợp

Người học liên kết đào tạo chéo để khái quát hóa mạnh mẽ trong điều kiện dữ liệu không đồng nhất

Tận dụng các mô hình ngôn ngữ lớn để đưa ra phán quyết có liên quan trong việc truy xuất vụ án pháp lý

FreeKV: Tăng cường khả năng truy xuất bộ nhớ đệm KV để suy luận LLM hiệu quả

Created by

Haebom

Tác giả

Lưu Quang Đạt, Lý Thành Vĩ, Chân Ngọc Ninh, Quách Mẫn Nghi, Triệu Như Nhược

Phác thảo

Bài báo này đề xuất một khuôn khổ đồng tối ưu hóa hệ thống thuật toán, FreeKV, để giải quyết các thách thức triển khai của các mô hình ngôn ngữ quy mô lớn (LLM) với các cửa sổ ngữ cảnh ngày càng lớn. Các ngữ cảnh dài của LLM đặt ra những thách thức triển khai do kích thước ngày càng tăng của bộ đệm KV. Các phương pháp nén, loại bỏ và tìm kiếm bộ đệm KV hiện tại có độ chính xác hoặc hiệu quả kém. FreeKV tối ưu hóa quy trình lựa chọn và thu hồi KV thông qua tìm kiếm dự đoán và các hiệu chỉnh được tinh chỉnh. Nó giảm thiểu việc truyền dữ liệu và cải thiện hiệu quả thông qua bố cục KV lai giữa bộ nhớ CPU và GPU và thu hồi phát trực tuyến đệm đôi. Kết quả thử nghiệm chứng minh rằng FreeKV đạt tốc độ nhanh hơn tới 13 lần so với phương pháp tìm kiếm KV hiệu suất tốt nhất, đồng thời duy trì độ chính xác gần như không mất dữ liệu trong nhiều tình huống và mô hình khác nhau.

Takeaways, Limitations

•

Takeaways:

◦

Một giải pháp hiệu quả cho vấn đề ngữ cảnh dài của LLM: FreeKV giải quyết hiệu quả những thách thức của việc triển khai LLM do kích thước bộ đệm KV ngày càng tăng.

◦

Cải thiện tốc độ mà không ảnh hưởng đến độ chính xác: Khắc phục những hạn chế của các phương pháp hiện có, chúng tôi đồng thời cải thiện tốc độ và độ chính xác.

◦

Tích hợp tối ưu hóa thuật toán và hệ thống: Tạo ra sự hiệp lực thông qua tối ưu hóa xem xét cả khía cạnh thuật toán và hệ thống.

•

Limitations:

◦

Thiếu thông tin chi tiết cụ thể về quá trình triển khai và ứng dụng thực tế của FreeKV: Bài báo có thể thiếu mô tả chi tiết về quá trình triển khai và ứng dụng FreeKV.

◦

Khả năng khái quát hóa trên nhiều kiến trúc và quy mô LLM khác nhau cần được xác minh: Vì chỉ có kết quả thử nghiệm từ một môi trường hạn chế được trình bày nên khả năng khái quát hóa trên nhiều môi trường khác nhau cần được xác minh thêm.

◦

Thiếu cân nhắc đến hiệu quả năng lượng: Mặc dù có phân tích về cải thiện tốc độ, nhưng có thể vẫn chưa thảo luận về các khía cạnh hiệu quả năng lượng.

Xem PDF

Made with Slashpage