Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Chuyển đổi cấu trúc: Phép tính dựa trên suy luận để chuyển đổi các biểu diễn

Tập hợp các mô hình nền tảng bệnh lý học cho MIDOG 2025 Đường dẫn 2: Phân loại nguyên phân không điển hình

AudioCodecBench: Điểm chuẩn toàn diện để đánh giá bộ giải mã âm thanh

Hiểu về Không gian là Khoa học Tên lửa -- Chỉ những Mô hình Lý luận Hàng đầu mới có thể Giải quyết các Nhiệm vụ Hiểu về Không gian

DaMoC: Lựa chọn hiệu quả mô hình ngôn ngữ lớn tối ưu để tinh chỉnh các tác vụ miền dựa trên nén dữ liệu và mô hình

Kỹ thuật mô-đun để tạo dữ liệu ngữ cảnh dài tổng hợp trong đào tạo và đánh giá mô hình ngôn ngữ

EZhouNet: Một khuôn khổ dựa trên mạng nơ-ron đồ thị và khoảng neo để phát hiện sự kiện âm thanh hô hấp

AImoclips: Một chuẩn mực để đánh giá khả năng truyền tải cảm xúc trong quá trình chuyển văn bản thành nhạc

TimeCopilot

RL dựa trên mô hình bậc nhất thông qua lan truyền ngược tách rời

Nghiên cứu thí điểm về AI tạo sinh và tư duy phản biện trong lớp học đại học

Beacon: Lượng tử hóa sau đào tạo với lựa chọn lưới tích hợp

Trí tuệ nhân tạo có đang định hình lại bối cảnh của cộng đồng khoa học địa chất quốc tế không?

Sự chú ý được vectơ hóa với mã hóa có thể học được cho máy biến áp lượng tử

Cấy ghép rồi tái tạo: Một mô hình mới để tăng cường dữ liệu văn bản

Sự phối hợp chiều sâu-chiều rộng trong RLVR: Mở khóa lợi ích của lý luận LLM với Khám phá thích ứng

MultiGen: Máy phát âm đa ngôn ngữ thân thiện với trẻ em có bằng LLM

StreetViewAI: Làm cho Street View dễ tiếp cận hơn bằng cách sử dụng AI đa phương thức nhận biết ngữ cảnh

AI cấp độ đường phố: Các mô hình ngôn ngữ lớn đã sẵn sàng cho các phán đoán trong thế giới thực chưa?

Ngôn ngữ lược đồ khái niệm KG-ER

RẤT NHIỀU Thời Trang! Đa Điều Kiện để Tạo Hình Ảnh thông qua Ghép Nối Phác Thảo-Văn Bản

Tạo video có điều kiện để nén video hiệu quả cao

TriCLIP-3D: Một khuôn khổ thống nhất hiệu quả về tham số cho nền tảng trực quan 3D ba mô hình dựa trên CLIP

Phân loại chi tiết về gãy xương cổ tay ở trẻ em dựa trên đặc điểm nhân khẩu học

Phân tích các phương pháp hành động-giá trị-thời gian-chênh lệch để học các giá trị trạng thái

Phân tích tham số ngẫu nhiên

Tự động hồi quy so với khớp dòng chảy: Nghiên cứu so sánh các mô hình mô hình hóa cho quá trình tạo văn bản thành nhạc

MiniCPM4: LLM siêu hiệu quả trên thiết bị đầu cuối

ĐáNh giá hiệu quả của lý luận dựa trên LLM cho lập lịch công việc HPC đa mục tiêu

Làm thế nào tôi có thể công bố điểm chuẩn LLM của mình mà không tiết lộ câu trả lời thực sự?

Tối ưu hóa khả năng chuyển đổi mô-đun trong siêu phân giải hình ảnh đơn: Đánh giá tính phổ quát và khối dư chu kỳ

Bộ chuyển đổi mặt nạ có thể chuyển nhượng: Phân đoạn ngữ nghĩa xuyên miền với ước tính khả năng chuyển nhượng thích ứng theo vùng

RBT4DNN: Kiểm tra mạng nơ-ron dựa trên yêu cầu

Học mô phỏng ngoại tuyến mạnh mẽ thông qua khâu quỹ đạo cấp trạng thái

Vượt ra ngoài ảnh ba chiều: nền tảng hấp dẫn lượng tử entropy của xử lý hình ảnh

KNighter: Chuyển đổi Phân tích Tĩnh với Bộ kiểm tra Tổng hợp LLM

FRIDA Cứu Hộ! Phân Tích Hiệu Quả Dữ Liệu Tổng Hợp Trong Lý Luận Thường Thức Dựa Trên Đối Tượng Để Ứng Phó Thảm Họa

CoDiff: Mô hình khuếch tán có điều kiện để phát hiện đối tượng 3D cộng tác

Học từ nhanh thông qua học tập trong ngữ cảnh siêu văn bản

Phương pháp lấy mẫu nhúng hình ảnh cho phụ đề đa dạng

Mô hình nền dựa trên hình ảnh tự nhiên cực lớn có vượt trội hơn mô hình võng mạc trong việc phát hiện các bệnh về mắt và hệ thống không?

ĐIểm ngoại lệ dựa trên biểu đồ mở rộng (EHBOS)

Khảo sát về thế hệ tăng cường truy xuất đồ thị cho các mô hình ngôn ngữ lớn tùy chỉnh

Phá vỡ nút thắt bối cảnh trong dự báo chuỗi thời gian dài

Bảo vệ LVLM khỏi các cuộc tấn công thị giác thông qua giám sát nhận thức một phần

ACING: Diễn viên-Nhà phê bình cho việc học hướng dẫn trong LLM hộp đen

Học tập trải nghiệm dựa trên Kolb dành cho các tác nhân tổng quát với hiệu suất khoa học dữ liệu Kaggle ở cấp độ con người

ĐịNh lượng lỗi hiệu chuẩn trong mạng nơ-ron thông qua lý thuyết dựa trên bằng chứng

ĐàO tạo mạnh mẽ các mô hình sinh ngầm cho phân phối đa biến và phân phối đuôi nặng với tổn thất thống kê bất biến

Học hỏi từ 10 bản demo: Học chính sách có thể tổng quát hóa và hiệu quả theo mẫu với khung khả năng chi trả định hướng

AutoPETIII: The Tracer Frontier. Frontier nào cơ?

Mạng chuỗi đầu vào dài cho dự báo chuỗi thời gian dài

FFHFlow: Tạo ra sự nắm bắt khéo léo đa dạng và nhận thức được sự không chắc chắn thông qua suy luận biến thiên dòng chảy

Unisolver: Bộ biến đổi có điều kiện PDE hướng tới bộ giải PDE thần kinh phổ quát

MTP: Một ngôn ngữ trừu tượng có kiểu ý nghĩa dành cho lập trình tích hợp AI

Sự khuếch tán trên các mã hóa mô hình ngôn ngữ để tạo ra trình tự protein

Chuyển đổi phong cách sang truyện tranh Calvin và Hobbes bằng cách sử dụng Stable Diffusion

Tự động hóa, không phải tự động hóa: Hoạt động và nhu cầu của các nhà kiểm tra thực tế châu Âu làm cơ sở để thiết kế các hệ thống AI lấy con người làm trung tâm

Xác minh kế hoạch cho các tác nhân hoàn thành nhiệm vụ cụ thể dựa trên LLM

EigenBench: Một thước đo hành vi so sánh về sự phù hợp giá trị

Oyster-I: Vượt ra ngoài sự từ chối -- Sự liên kết an toàn mang tính xây dựng cho các mô hình ngôn ngữ có trách nhiệm

Mở rộng FKG.in: Hướng tới mạng lưới truy xuất nguồn gốc thực phẩm

DeepVIS: Kết nối ngôn ngữ tự nhiên và trực quan hóa dữ liệu thông qua suy luận từng bước

Lý thuyết về tâm trí sử dụng suy luận chủ động: Một khuôn khổ cho sự hợp tác của nhiều tác nhân

CP-Bench: Đánh giá các mô hình ngôn ngữ lớn để mô hình hóa ràng buộc

Tiên đề của các lựa chọn hạn chế theo thứ tự tuyến tính của các tập hợp với giá trị tối thiểu làm dự phòng

Hướng dẫn bằng DMN: Khung kiểm soát hành vi LLM

Cơ sở tính toán của việc ra quyết định của LLM trong mô phỏng xã hội

Khoa học xuyên ngôn ngữ: Đánh giá bản dịch đa ngôn ngữ của các bài báo khoa học LLM

Nâng cao FKG.in: tự động hóa phân tích thành phần thực phẩm Ấn Độ

WASP: Một phương pháp tiếp cận không gian trọng số để phát hiện sự giả mạo đã học

Mô hình niềm tin có thể chuyển giao trên mạch lượng tử

PIN: Bộ dữ liệu chuyên sâu về kiến thức dành cho các tài liệu đa phương thức được ghép nối và xen kẽ

(Phi) lý tính trong AI: Tình hình hiện tại, Thách thức nghiên cứu và Câu hỏi mở

Sách nhập môn về tình báo

ChronoGraph: Bộ dữ liệu chuỗi thời gian đa biến dựa trên đồ thị thực tế

Kích hoạt Delta: Một biểu diễn cho các mô hình ngôn ngữ lớn được tinh chỉnh

DEXOP: Thiết bị chuyển giao thao tác khéo léo của con người bằng robot

Hướng tới một cái nhìn thống nhất về mô hình ngôn ngữ lớn sau đào tạo

Không suy nghĩ, chỉ AI: Các khuyến nghị LLM thiên vị hạn chế khả năng của con người trong việc sàng lọc sơ yếu lý lịch

IPA: Khung dự báo đầu vào bảo toàn thông tin cho việc điều chỉnh mô hình nền tảng hiệu quả

SSGaussian: Chuyển đổi phong cách 3D có nhận thức về ngữ nghĩa và bảo toàn cấu trúc

Dự đoán khả năng đỗ xe thông qua việc kết hợp dữ liệu đa nguồn với bộ biến đổi đảo ngược không gian-thời gian được tăng cường tự giám sát

PARCO: ASR ngữ cảnh mạnh mẽ được tăng cường âm vị thông qua việc loại bỏ sự mơ hồ của thực thể tương phản

AUDETER: Bộ dữ liệu quy mô lớn để phát hiện âm thanh Deepfake trong thế giới mở

Từ Trình soạn thảo đến Trình ước tính hình học dày đặc

Học biểu diễn thực thể tách rời để xếp hạng quảng cáo trên Pinterest

Sự thật phai mờ nhanh chóng: Đánh giá khả năng ghi nhớ kiến thức y khoa lỗi thời trong các mô hình ngôn ngữ lớn

HumAine-Chatbot: AI đàm thoại cá nhân hóa theo thời gian thực thông qua học tăng cường

Học tăng cường để kiểm soát mạnh mẽ các hệ thống pin Li-ion có nhận thức về lão hóa với xác minh chính thức dựa trên dữ liệu

Nghiên cứu thực nghiệm về lỗ hổng trong các gói Python và cách phát hiện chúng

Chúng ta có thể cứu được bao nhiêu bệnh nhân với bằng LLM trước đây?

Học nhận thức chủ động thông qua tối ưu hóa sở thích tự phát triển để xây dựng nền tảng GUI

MAGneT: Phối hợp nhiều tác nhân tạo ra các buổi tư vấn sức khỏe tâm thần tổng hợp nhiều lượt

VisioFirm: Công cụ chú thích hỗ trợ AI đa nền tảng cho thị giác máy tính

Vượt qua ranh giới giữa các loài: Chuyển giao kiến thức từ lời nói sang âm thanh động vật

YOLO Ensemble dùng UAV để phát hiện khuyết tật đa phổ trong các thành phần của tuabin gió

Sự chú ý như một bộ lọc thích ứng

TAGAL: Tạo dữ liệu dạng bảng bằng phương pháp Agentic LLM

Nâng cao khả năng truy xuất tài liệu kỹ thuật cho RAG

Mooncake: Kiến trúc phân tách lấy KVCache làm trung tâm để phục vụ LLM

Created by

Haebom

Tác giả

Nhược Ngọc Tần, Zheming Li, Weiran He, Mingxing Zhang, Yongwei Wu, Weimin Zheng, Xinran Xu

Phác thảo

Mooncake là nền tảng phục vụ cho Kimi, dịch vụ LLM chính do Moonshot AI cung cấp. Mooncake có kiến trúc phân tán lấy KVCache làm trung tâm, tách biệt các cụm điền trước và giải mã. Nó cũng tận dụng các tài nguyên CPU, DRAM và SSD chưa được sử dụng hết của các cụm GPU để triển khai bộ đệm KVCache phân tán. Cốt lõi của Mooncake là bộ lập lịch lấy KVCache làm trung tâm, giúp tối đa hóa thông lượng hiệu quả tổng thể trong khi vẫn đáp ứng các mục tiêu mức dịch vụ (SLO) liên quan đến độ trễ. Trái ngược với nghiên cứu hiện có cho rằng tất cả các yêu cầu sẽ được xử lý, Mooncake gặp khó khăn trong các tình huống quá tải. Để giảm thiểu điều này, chúng tôi đã phát triển chính sách từ chối sớm dựa trên dự đoán. Kết quả thử nghiệm cho thấy Mooncake vượt trội hơn các tình huống ngữ cảnh dài. So với các phương pháp cơ sở, Mooncake có thể tăng thông lượng lên tới 525% trong một số tình huống mô phỏng nhất định trong khi vẫn đáp ứng SLO. Trong khối lượng công việc thực tế, kiến trúc sáng tạo của Mooncake cho phép Kimi xử lý nhiều hơn tới 75% yêu cầu.

Takeaways, Limitations

•

Takeaways:

◦

Chúng tôi chứng minh rằng kiến trúc phân tán lấy KVCache làm trung tâm có thể cải thiện đáng kể thông lượng của nền tảng phục vụ LLM.

◦

Sử dụng hiệu quả các tài nguyên chưa được sử dụng hết của cụm GPU để cải thiện hiệu quả hệ thống.

◦

ĐảM bảo tính ổn định của hệ thống trong các tình huống quá tải thông qua các chính sách loại bỏ sớm mang tính dự đoán.

◦

Nó hoạt động tốt trong các tình huống ngữ cảnh dài.

•

Limitations:

◦

Cần phân tích thêm để xác định sự khác biệt giữa kết quả mô phỏng và kết quả khối lượng công việc thực tế.

◦

Cần nghiên cứu thêm về độ chính xác và tiềm năng tối ưu hóa của các chính sách loại bỏ sớm dựa trên dự đoán.

◦

Cần phải đánh giá hiệu suất và độ ổn định lâu dài trong môi trường vận hành thực tế.

◦

Xác minh khả năng tổng quát là cần thiết cho nhiều mô hình và khối lượng công việc LLM khác nhau.

Xem PDF

Made with Slashpage