Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

PRIX: Học cách lập kế hoạch từ những điểm ảnh thô cho việc lái xe tự động toàn diện

Swin-TUNA: Một phương pháp PEFT mới để phân đoạn hình ảnh thực phẩm chính xác

EarthLink: Một tác nhân AI tự phát triển cho khoa học khí hậu

Proxy thực tế: Tương tác chất lỏng với các đối tượng trong thế giới thực trong MR thông qua các biểu diễn trừu tượng

Tận dụng các tín hiệu đa nguồn và không đồng nhất để phát hiện mệt mỏi

Sự tốt đẹp của phát âm không phân đoạn

Khung ước tính tư thế tương đối thích ứng với điều chỉnh tiếng ồn kép cho các thao tác tiếp cận an toàn

Phối hợp thành phần cho các nhóm nhiều robot với các mô hình ngôn ngữ lớn

Sự khuếch tán vượt trội hơn hồi quy tự động trong các cài đặt dữ liệu bị hạn chế

Nút thắt LLM mới: Quan điểm hệ thống về sự chú ý tiềm ẩn và sự pha trộn của các chuyên gia

EndoControlMag: Hệ thống phóng đại chuyển động mạch máu nội soi mạnh mẽ với chức năng thiết lập lại tham chiếu định kỳ và kiểm soát mặt nạ kép nhận biết mô phân cấp

Mạng nơ-ron đồ thị khoảng cách dài-ngắn và cải thiện chương trình học để nhận dạng cảm xúc trong hội thoại

Omni-Thinker: Mở rộng khái quát hóa liên miền trong LLM thông qua RL đa nhiệm vụ với phần thưởng kết hợp

GCC-Spam: Phát hiện thư rác thông qua GAN, Học tương phản và Mạng tương đồng ký tự

SDSC: Một thước đo nhận biết cấu trúc cho việc học biểu diễn tín hiệu ngữ nghĩa

Các LLM đa ngôn ngữ không phải là những người tư duy đa ngôn ngữ: Bằng chứng từ Đánh giá phép loại suy tiếng Hindi

ĐIều chế sự chú ý động tần số cho dự đoán dày đặc

Khảo sát về học sâu để giải quyết vấn đề hình học

Mô hình nền tảng EEG: Đánh giá quan trọng về tiến độ hiện tại và hướng đi trong tương lai

Inversion-DPO: Đào tạo sau chính xác và hiệu quả cho các mô hình khuếch tán

Khung PBN-RL-XAI để khám phá chiến lược điều trị “chạy trốn” trong bệnh ung thư hắc tố

Nhiệm vụ trước: Nâng cao việc đánh giá mô hình bằng cách xem xét toàn bộ không gian của các nhiệm vụ hạ nguồn

OrQstrator: Một khuôn khổ hỗ trợ AI để tối ưu hóa mạch lượng tử tiên tiến

Một nghiên cứu toàn diện về phân loại đối số dựa trên LLM: từ LLAMA qua GPT-4o đến Deepseek-R1

Các chỉ số cơ học về sự hiểu biết trong các mô hình ngôn ngữ lớn

Thu nhỏ RL thành video dài

Học mô phỏng và điều khiển từ xa song phương nhanh chóng bằng cách sử dụng điều khiển lực không cảm biến thông qua mô hình động lực học chính xác

Bộ mã hóa tự động có mặt nạ cảm nhận được trái tim: Khám phá độ lệch đơn giản cho phân tích điện tâm đồ

SyncMapV2: Phân đoạn không giám sát mạnh mẽ và thích ứng

LLM Web Dynamics: Theo dõi sự sụp đổ của mô hình trong mạng lưới LLM

Tại sao hiệu ứng đánh giá phụ thuộc lớp lại xảy ra với các thuộc tính chuỗi thời gian? Một cuộc điều tra dữ liệu tổng hợp

Khuếch tán và phân tán: Tạo hình ảnh với chính quy hóa biểu diễn

LLM-D12: Thang đo hai chiều của sự phụ thuộc công cụ và quan hệ vào các mô hình ngôn ngữ lớn

MambaNeXt-YOLO: Mô hình không gian trạng thái lai để phát hiện đối tượng theo thời gian thực

PALADIN: Dấu vân tay thần kinh mạnh mẽ cho các mô hình khuếch tán văn bản sang hình ảnh

Học tăng cường trực tuyến dựa trên kết quả: Thuật toán và giới hạn cơ bản

Giải pháp học máy tích hợp trong nền tảng chăm sóc sức khỏe IoT để phân tầng nguy cơ suy tim

Vượt ra ngoài phân tích cấp thấp: Một phương pháp tiếp cận nhanh để học tập hiệu quả trên thiết bị

Máy biến đổi thị giác trong nông nghiệp chính xác: Một khảo sát toàn diện

PerceptionLM: Dữ liệu và Mô hình Truy cập Mở để Hiểu biết Trực quan Chi tiết

Vị trí: Một lý thuyết nhận dạng có cơ sở thực nghiệm sẽ thúc đẩy nghiên cứu học tập tự giám sát

LagKV: Thông tin độ trễ tương đối của bộ nhớ đệm KV cho biết mã thông báo nào quan trọng

Trigger without Trace: Hướng tới cuộc tấn công cửa sau bí mật vào các mô hình khuếch tán văn bản thành hình ảnh

Lấy mẫu Logit thưa thớt: Tăng tốc quá trình chắt lọc kiến thức trong LLM

Căn chỉnh tầm nhìn với ngôn ngữ: Xây dựng đồ thị tri thức đa phương thức không cần chú thích cho lý luận LLM nâng cao

Att-Adapter: Bộ điều hợp khuếch tán T2I đa thuộc tính, mạnh mẽ và chính xác theo từng miền thông qua bộ mã hóa tự động biến thiên có điều kiện

Khi Mô hình Ngôn ngữ Thị giác Lớn Gặp Hình ảnh Viễn thám Lớn: Cắt tỉa Mã thông báo Hướng dẫn Văn bản Thô sang Tinh

Học tập đa góc nhìn mạnh mẽ thông qua sự kết hợp biểu diễn của sự chú ý ở cấp độ mẫu và sự liên kết của nhiễu loạn mô phỏng

Xử lý ảo giác từ các mô hình có điều kiện để tái tạo hình ảnh y tế bằng DynamicDPS

Học máy lượng tử trong y học chính xác và khám phá thuốc -- Một bước ngoặt cho các phương pháp điều trị phù hợp?

Một mô hình ngôn ngữ chung để nhận dạng peptide

ExpliCa: Đánh giá lý luận nhân quả rõ ràng trong các mô hình ngôn ngữ lớn

EVEv2: Đường cơ sở được cải thiện cho các mô hình ngôn ngữ thị giác không cần bộ mã hóa

Căn chỉnh LLM như một phương pháp tối ưu hóa bộ thu thập thông tin: Một góc nhìn về thu thập thông tin

Pulse-PPG: Mô hình nền tảng PPG được đào tạo thực địa nguồn mở dành cho các ứng dụng đeo được trong phòng thí nghiệm và thực địa

Thị trường nhà ở trực tuyến

Học tập và tối ưu hóa tích hợp để quản lý tắc nghẽn và tối đa hóa lợi nhuận trong thị trường điện thời gian thực

Tích hợp bằng chứng vào thiết kế hệ thống hỗ trợ quyết định dựa trên XAI và AI: Khung phương tiện-mục đích cho người dùng cuối trong xây dựng

Thiết kế tham số có thể mở rộng cho mạch lượng tử siêu dẫn với mạng nơ-ron đồ thị

Khảo sát về Nhận dạng Nguyên nhân Sự kiện: Phân loại, Thách thức, Đánh giá và Triển vọng

Máy hiệu chỉnh thần kinh không được xếp hạng

Hướng tới sự tổng quát hóa đa phương thức y tế 3D phổ quát thông qua việc học biểu diễn bất biến cá nhân hóa

Nguyên thủy đa tạp chuyển động khả vi để tạo ra chuyển động phản ứng dưới các ràng buộc động học

Tinh chỉnh bậc không của LLM trong không gian con ngẫu nhiên

RUMI: Lục lọi bằng cách sử dụng thông tin lẫn nhau

Máy thần kinh không xếp hạng

VolDoGer: Bộ dữ liệu được LLM hỗ trợ cho việc khái quát hóa miền trong các tác vụ ngôn ngữ thị giác

Phát hiện sự trôi dạt khái niệm không giám sát từ các biểu diễn học sâu theo thời gian thực

Một khuôn khổ đánh giá đa diện để đánh giá dữ liệu tổng hợp được tạo ra bởi các mô hình ngôn ngữ lớn

DualXDA: Hướng tới việc phân bổ dữ liệu thưa thớt, hiệu quả và dễ giải thích trong các mô hình AI lớn

ĐịNh lượng tính độc đáo và tính chia rẽ trong bài phát biểu của Tổng thống

DocTER: Đánh giá việc chỉnh sửa kiến thức dựa trên tài liệu

Học các khái niệm có thể định nghĩa trong logic bậc nhất với đếm

Nhận biết và thu thập các hình dạng giao cắt đơn yếu trên cây

Compliance Brain Assistant: AI đàm thoại hỗ trợ các nhiệm vụ tuân thủ trong môi trường doanh nghiệp

Học các phép trừu tượng thời gian thông qua các phép đồng cấu biến thể trong các MDP trừu tượng được tạo ra bởi tùy chọn

Khi Quyền Tự chủ Trở nên Bất ổn: Chuẩn bị cho Rủi ro Thông đồng Nhiều tác nhân trong Hệ thống Xã hội

Một khuôn khổ tích hợp của kỹ thuật nhanh chóng và đồ thị kiến thức đa chiều để phân tích tranh chấp pháp lý

DisMS-TS: Loại bỏ các tính năng đa thang đo dư thừa cho phân loại chuỗi thời gian

Bị làm sai lệch bởi lý luận: Các mô hình ngôn ngữ lý luận trở thành kẻ đi nhờ xe trong các trò chơi hàng hóa công cộng

ĐịNh hình chùm tia và phân bổ tài nguyên để giảm thiểu độ trễ trong hệ thống OFDM hỗ trợ RIS

Khả năng ảnh hưởng của sự khác biệt thần kinh như một giải pháp dự phòng cho vấn đề căn chỉnh AI

EducationQ: Đánh giá năng lực giảng dạy của LLM thông qua khuôn khổ đối thoại đa tác nhân

SuperARC: Một bài kiểm tra bất khả tri cho trí thông minh hẹp, chung và siêu việt dựa trên các nguyên tắc nén đệ quy và xác suất thuật toán

IPCGRL: Học tăng cường hướng dẫn bằng ngôn ngữ để tạo ra cấp độ thủ tục

OR-LLM-Agent: Tự động hóa mô hình hóa và giải quyết các vấn đề tối ưu hóa nghiên cứu hoạt động bằng LLM suy luận

Lý luận hóa học trong LLM mở ra chiến lược lập kế hoạch tổng hợp và làm sáng tỏ cơ chế phản ứng

BEARCUBS: Một chuẩn mực cho các tác nhân web sử dụng máy tính

Từ Giả thuyết đến Xuất bản: Khảo sát Toàn diện về Hệ thống Hỗ trợ Nghiên cứu do AI thúc đẩy

HPS: Lấy mẫu sở thích cứng để căn chỉnh sở thích của con người

Phương pháp khen thưởng khác biệt cho thuật toán ra quyết định hợp tác đa phương tiện dựa trên học tăng cường

Truy xuất các lớp lệnh nhân quả có cơ sở kiến thức không nhất quán

Về cấu trúc nguồn gốc trò chơi và ứng dụng của nó

I-CEE: Điều chỉnh các giải thích về mô hình phân loại hình ảnh theo chuyên môn của người dùng

SIDA: Thích ứng miền Zero-shot điều khiển bằng hình ảnh tổng hợp

Tổng hợp phần mềm 3D được hướng dẫn bởi biểu diễn trung gian ràng buộc-biểu đạt

Di chuyển ra ngoài: Hợp tác giữa con người và AI dựa trên nền tảng vật lý

SynC: Tinh chỉnh bộ dữ liệu chú thích ảnh tổng hợp với ánh xạ một-nhiều để chú thích ảnh không cần chụp

ĐếM SMT gần đúng ngoài miền rời rạc

DRWKV: Tập trung vào các cạnh của vật thể để cải thiện hình ảnh thiếu sáng

AirCache: Kích hoạt tính năng nén bộ nhớ đệm KV liên quan giữa các phương thức để suy luận mô hình ngôn ngữ thị giác lớn hiệu quả

Created by

Haebom

Tác giả

Kai Huang, Hao Zou, Bochen Wang, Ye Xi, Zhen Xie, Hao Wang

Phác thảo

Trong bài báo này, chúng tôi đề xuất AirCache, một phương pháp nén bộ nhớ đệm KV mới để tăng tốc suy luận của các mô hình ngôn ngữ thị giác quy mô lớn (LVLM). LVLM có khả năng suy luận và khái quát hóa tuyệt vời, nhưng chúng đòi hỏi chi phí tính toán đáng kể để xử lý nhiều mã thông báo thị giác và tạo ra các đầu ra ngữ cảnh dài, dẫn đến nhu cầu quá mức đối với bộ nhớ đệm KV. AirCache nghiên cứu một cách có hệ thống các mối tương quan giữa mã thông báo thị giác và văn bản, tìm thấy sự dư thừa đáng kể trong các mã thông báo thị giác được lưu trong bộ nhớ đệm và loại bỏ chúng một cách chiến lược để tăng tốc đáng kể việc tạo ngữ cảnh trong khi vẫn duy trì hiệu suất mô hình. Các thành phần chính bao gồm các cửa sổ quan sát ưu tú để đánh giá tầm quan trọng của các thành phần thị giác, mô hình hóa mức độ liên quan liên phương thức mạnh mẽ với tính nhất quán đa chế độ xem được cải thiện, và chiến lược phân bổ ngân sách theo từng lớp thích ứng, khai thác sức mạnh và tính bất đối xứng của phân phối tầm quan trọng của mã thông báo. Các đánh giá toàn diện trên một số LVLM và điểm chuẩn cho thấy AirCache đạt được hiệu suất tương tự so với bộ nhớ đệm đầy đủ trong khi chỉ duy trì 10% bộ nhớ đệm KV thị giác, giảm độ trễ giải mã từ 29% đến 66% cho các kích thước lô và độ dài dấu nhắc khác nhau. Đặc biệt, khi tỷ lệ lưu giữ bộ nhớ đệm giảm, hiệu suất sẽ được cải thiện hơn nữa so với các phương pháp hiện có.

Takeaways, Limitations

•

Takeaways:

◦

Chúng tôi trình bày AirCache, một phương pháp nén bộ nhớ đệm KV mới giúp cải thiện hiệu quả tốc độ suy luận của LVLM.

◦

Loại bỏ hiệu quả sự dư thừa của các mã thông báo trực quan để giảm chi phí tính toán.

◦

Cải thiện hiệu quả sử dụng bộ nhớ đệm thông qua các chiến lược phân bổ ngân sách theo từng lớp thích ứng.

◦

Giảm đáng kể độ trễ giải mã cho nhiều kích thước lô và độ dài nhắc nhở khác nhau.

◦

Tỷ lệ lưu giữ bộ nhớ đệm càng thấp thì hiệu suất càng tốt so với các phương pháp hiện có.

•

Limitations:

◦

Cải thiện hiệu suất của AirCache là kết quả cho các LVLM và điểm chuẩn cụ thể, còn hiệu suất tổng quát trên các mô hình hoặc tập dữ liệu khác cần được nghiên cứu thêm.

◦

Cần nghiên cứu thêm về tối ưu hóa tham số của cửa sổ quan sát ưu tú và các chiến lược phân bổ ngân sách theo từng lớp thích ứng.

◦

Do những hạn chế trong cách đánh giá tầm quan trọng của các mã thông báo trực quan nên có khả năng một số thông tin quan trọng có thể bị mất.

Xem PDF

Made with Slashpage