Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

An ninh mạng hình thái thần kinh với học tập suốt đời bán giám sát

Một khuôn khổ toàn diện để định lượng sự không chắc chắn của các mô hình giám sát theo Voxel trong MRI IVIM

Chính quy hóa hành vi đối xứng thông qua mở rộng Taylor của tính đối xứng

Mở khóa tiềm năng của MLLM trong phân đoạn biểu thức tham chiếu thông qua bộ giải mã mặt nạ nhẹ

Tương tác giữa con người và AI lấy con người làm trung tâm (HC-HAII): Quan điểm AI lấy con người làm trung tâm

Thăm dò và tăng cường tính mạnh mẽ của bộ giải mã QEC dựa trên GNN với học tăng cường

LLM là những nhà lý luận đơn luồng: Giải mã cơ chế hoạt động của tư duy mềm

Thực hiện các quy luật mở rộng trong các hệ thống đề xuất: Mô hình chuyên gia nền tảng cho việc triển khai mô hình siêu quy mô

GrandJury: Giao thức đánh giá mô hình học máy cộng tác cho thang điểm chất lượng động

VeOmni: Mở rộng quy mô đào tạo mô hình phương thức bất kỳ với Zoo công thức phân tán tập trung vào mô hình

ByteGen: Mô hình tạo không cần tokenizer cho các sự kiện sổ lệnh trong không gian Byte

VLM4D: Hướng tới nhận thức không gian và thời gian trong các mô hình ngôn ngữ thị giác

CUPID: Đánh giá sự liên kết cá nhân hóa và theo ngữ cảnh của LLM từ các tương tác

RoboMemory: Một khuôn khổ tác nhân đa bộ nhớ lấy cảm hứng từ não bộ cho việc học tập suốt đời trong các hệ thống vật lý hiện thân

SpectrumWorld: Nền tảng trí tuệ nhân tạo cho quang phổ học

Căn chỉnh an toàn được cá nhân hóa cho các mô hình khuếch tán văn bản sang hình ảnh

Khám phá tính khả thi của các kỹ thuật học sâu để phân loại giới tính chính xác từ hình ảnh mắt

Hợp nhất Delta mô-đun với các ràng buộc trực giao: Một khuôn khổ có khả năng mở rộng cho việc kết hợp mô hình liên tục và có thể đảo ngược

Cơ chế chú ý hiệu quả cho các mô hình ngôn ngữ lớn: Một cuộc khảo sát

Nhìn trước khi kết hợp: Căn chỉnh đa phương thức theo hướng dẫn 2D để phát hiện 3D mạnh mẽ

Sự khuếch tán vượt trội hơn hồi quy tự động trong các cài đặt dữ liệu bị hạn chế

Đề Xuất đa mục tiêu xuyên miền tạo ra

Học những gì quan trọng: Lựa chọn nhiệm vụ xác suất thông qua thông tin tương hỗ để tinh chỉnh mô hình

$\Texttt{Droid}$: Bộ tài nguyên để phát hiện mã do AI tạo ra

Lớp logic Prompt Control Injection (LPCI): Một lớp lỗ hổng bảo mật mới trong các hệ thống Agentic

SPICE: Một quy trình dán nhãn SWE-Bench tự động để làm rõ vấn đề, phạm vi kiểm tra và ước tính nỗ lực

Tạo ra hợp đồng thông minh của tác nhân AI

Phân biệt dấu hiệu bằng cách sử dụng mô hình ngôn ngữ lớn

Mô hình ngôn ngữ thị giác có thể hiểu được hành động mô phỏng không?

Biến đổi mô hình phức tạp bằng học tăng cường với sự hướng dẫn không chắc chắn của con người

Mô hình học sâu không giám sát để lựa chọn trước lớp năng lượng nhanh chóng của kế hoạch điều trị cung cấp proton hiệu quả tối ưu hóa ung thư vòm họng

Kích hoạt Trợ lý AI Y tế trên Thiết bị thông qua Khả năng Thích ứng Độ nổi bật Dựa trên Đầu vào

MOGO: Bộ biến đổi nhân quả phân cấp lượng tử dư thừa để tạo chuyển động của con người 3D chất lượng cao và thời gian thực

Học cách chẩn đoán riêng tư: LLM do DP hỗ trợ để phân loại báo cáo X quang

CountingFruit: Đếm trái cây 3D theo hướng dẫn ngôn ngữ với phương pháp phân tích Gauss ngữ nghĩa

WeatherEdit: Chỉnh sửa thời tiết có thể kiểm soát bằng trường Gaussian 4D

Chẩn đoán và giảm thiểu nhiễu phương thức trong các mô hình ngôn ngữ lớn đa phương thức

Flex-Judge: Lý luận chỉ văn bản giải phóng các nhà đánh giá đa phương thức Zero-Shot

EarthSynth: Tạo ra dữ liệu quan sát Trái Đất hữu ích với các mô hình khuếch tán

RLSR: Học tăng cường từ phần thưởng bản thân

Các mô hình khuếch tán có thể trao đổi bí mật: Song song hóa DDPM thông qua tự động suy đoán

NoWag: Một khuôn khổ thống nhất để nén giữ nguyên hình dạng của các mô hình ngôn ngữ lớn

Khuyến nghị có thể giải thích được với phản hồi mô phỏng của con người

ĐảM bảo tính ổn định xác suất cho việc gán tính năng

JEPA4Rec: Học các biểu diễn ngôn ngữ hiệu quả cho khuyến nghị tuần tự thông qua kiến trúc dự đoán nhúng chung

ArXivBench: Khi nào bạn nên tránh sử dụng ChatGPT cho bài viết học thuật

Hướng tới các đại lý bán hàng đàm thoại được cá nhân hóa: Hồ sơ người dùng theo ngữ cảnh cho hành động chiến lược

Phương pháp học sâu để phát hiện sự cố mất kiểm soát nhiệt trong dây chuyền sản xuất pin

Vector Quantized-Elites: Tối ưu hóa chất lượng đa dạng không giám sát và không phụ thuộc vào vấn đề

Dự đoán tuổi thọ của đầu in công nghiệp bằng phân tích khả năng sống sót

R2Vul: Học cách suy luận về lỗ hổng phần mềm bằng phương pháp học tăng cường và chưng cất suy luận có cấu trúc

SciReplicate-Bench: Đánh giá chuẩn LLM trong việc tái tạo thuật toán dựa trên tác nhân từ các bài báo nghiên cứu

Bảo vệ quyền riêng tư của đám mây điểm 3D hiệu quả về mặt tính toán và dễ nhận dạng

Tác động của các lỗi viết câu hỏi đến độ khó và khả năng phân biệt trong Lý thuyết phản hồi câu hỏi

Dạy LLM cách học với sự tinh chỉnh theo ngữ cảnh

ĐáNh giá khả năng nhận thức an toàn trong các mô hình ngôn ngữ thị giác dành cho xe tự hành

Phương pháp chẩn đoán lỗi tăng cường GNN cho các cuộc tấn công mạng vật lý song song trong lưới điện

Ràng buộc về tính toàn vẹn ngữ nghĩa: Các rào cản khai báo cho hệ thống xử lý dữ liệu tăng cường AI

Text2VDM: Bản đồ dịch chuyển văn bản sang vectơ cho tác phẩm điêu khắc 3D mang tính biểu cảm và tương tác

RLTHF: Phản hồi của con người được nhắm mục tiêu để điều chỉnh LLM

Tạo nhạc nền video bằng cách kết hợp cảm xúc và ranh giới thời gian

MetaOcc: Sự kết hợp không gian-thời gian của radar và camera 4D toàn cảnh để dự đoán tình trạng chiếm đóng 3D với các chiến lược đào tạo kép

Có thể sử dụng các mô hình ngôn ngữ lớn nguồn mở để ghi chép về khối u ở Đức không? -- Đánh giá về ghi chú của bác sĩ tiết niệu

Nhiều tác nhân dựa trên mô hình ngôn ngữ lớn để trả lời câu hỏi trực quan dựa trên kiến thức

PromptDresser: Cải thiện chất lượng và khả năng kiểm soát của thử đồ ảo thông qua lời nhắc văn bản tạo ra và mặt nạ nhận biết lời nhắc

Gợi ý dựa trên cơ sở lý luận để trả lời câu hỏi trực quan dựa trên kiến thức

AnomalyControl: Học các đặc điểm ngữ nghĩa đa phương thức để tổng hợp dị thường có thể kiểm soát

GuARD: Phát hiện bất thường hiệu quả thông qua mô hình ngôn ngữ giàu văn bản và dựa trên đồ thị

TokenFlow: Công cụ phân tích hình ảnh thống nhất để hiểu và tạo đa phương thức

PL-DCP: Một khuôn khổ học tập theo cặp với các nguyên mẫu miền và lớp để nhận dạng cảm xúc EEG trong các điều kiện mục tiêu chưa biết

DisCoRD: Từ mã thông báo rời rạc đến chuyển động liên tục thông qua giải mã dòng chỉnh lưu

Từ Mã đến Tính chính xác: Hoàn thiện Giai đoạn Cuối cùng của Việc Tạo Mã bằng Gỡ lỗi Phân cấp

MedHalu: Ảo giác trong phản hồi các câu hỏi về chăm sóc sức khỏe bằng các mô hình ngôn ngữ lớn

Vấn đề huy chương: Điều tra các trường hợp trượt của LLM thông qua bảng xếp hạng Olympic

TẠO Bộ dữ liệu của bạn: Tạo Bộ dữ liệu tổng hợp theo nhiệm vụ cụ thể thông qua việc truy xuất và mở rộng ngữ liệu

StitchFusion: Kết hợp mọi phương thức trực quan để nâng cao khả năng phân đoạn ngữ nghĩa đa phương thức

SincVAE: Một phương pháp bán giám sát mới để cải thiện khả năng phát hiện dị thường trên dữ liệu EEG bằng SincNet và bộ mã hóa tự động biến thiên

CrisisSense-LLM: Mô hình ngôn ngữ lớn được điều chỉnh chính xác cho phân loại văn bản truyền thông xã hội đa nhãn trong tin học thảm họa

GTR: Cải thiện các mô hình tái tạo 3D lớn thông qua tinh chỉnh hình học và kết cấu

Hiểu các hành vi của mô hình ngôn ngữ lớn thông qua phân tích và tạo ra phản thực tế tương tác

Một tập dữ liệu MRI ung thư vòm họng nguyên phát với phân đoạn đa phương thức

Xác suất của LLM trò chuyện bị hiệu chỉnh sai nhưng vẫn dự đoán được tính chính xác trong phần Hỏi & Đáp trắc nghiệm

Học sâu đồ thị không giám sát tiết lộ hồ sơ rủi ro lũ lụt mới nổi của các khu vực đô thị

OmniPlay: So sánh các mô hình Omni-Modal về cách chơi trò chơi Omni-Modal

Nemori: Ký ức của tác nhân tự tổ chức lấy cảm hứng từ khoa học nhận thức

Polymath: Một tác nhân tự tối ưu hóa với quy trình làm việc phân cấp động

CAMA: Nâng cao lý luận toán học trong các mô hình ngôn ngữ lớn với kiến thức nhân quả

SE-Agent: Tối ưu hóa quỹ đạo tự tiến hóa trong suy luận đa bước với các tác nhân dựa trên LLM

Thoát khỏi tình trạng bế tắc: Tăng cường cam kết trong chương trình Thạc sĩ Luật (LLM)

NatureGAIA: Đẩy mạnh ranh giới của các tác nhân GUI với chuẩn mực đầy thách thức và bộ dữ liệu quỹ đạo chất lượng cao

DSBC: Nhiệm vụ Khoa học dữ liệu so sánh với kỹ thuật bối cảnh

Nhận diện cơn đau hiệu quả thông qua tín hiệu hô hấp: Đường ống hợp nhất đa cửa sổ của bộ chuyển đổi chú ý chéo đơn

Biểu đồ đa biểu diễn để nhận biết cơn đau: Tích hợp nhiều tín hiệu hoạt động điện da vào một hình ảnh duy nhất

SafeWork-R1: Sự phát triển đồng thời của An toàn và Trí tuệ theo Luật AI-45$^{\circ}$

Tối ưu hóa chính sách ngân sách phân cấp cho lý luận thích ứng

Biểu đồ R1: Giám sát và củng cố chuỗi suy nghĩ cho người lập biểu đồ nâng cao

Thiết lập các phương pháp hay nhất để xây dựng các tiêu chuẩn đại lý nghiêm ngặt

Lập kế hoạch LLM mở rộng: NL2FLOW để tạo ra bài toán tham số và đánh giá nghiêm ngặt

Tối ưu hóa chính sách bảo toàn phong cách cho tác nhân trò chơi

Căn chỉnh giá trị đa cấp trong hệ thống AI đại lý: Khảo sát và quan điểm

Nhìn trước khi kết hợp: Căn chỉnh đa phương thức theo hướng dẫn 2D để phát hiện 3D mạnh mẽ

Created by

Haebom

Tác giả

Xiang Li, Zhangchi Hu, Xiao Xu, Bin Kong

Phác thảo

Bài báo này trình bày một phương pháp tích hợp dữ liệu đầu vào của LiDAR và camera vào biểu diễn Bird's-Eye-View (BEV) thống nhất để nâng cao hiệu suất nhận thức 3D của xe tự hành. Các phương pháp hiện có gặp phải tình trạng mất cân bằng không gian giữa các đặc điểm của LiDAR và camera, dẫn đến sai sót trong việc giám sát độ sâu chính xác của các nhánh camera và tổng hợp đặc điểm đa phương thức. Bài báo này chứng minh rằng nguyên nhân gốc rễ của những mất cân bằng này nằm ở độ chính xác hiệu chuẩn và lỗi chiếu do hiệu ứng màn trập lăn. Chúng tôi lưu ý rằng các lỗi này có thể dự đoán được tập trung tại các ranh giới vật thể-nền, nơi mà các máy dò 2D có thể xác định một cách đáng tin cậy. Do đó, mục tiêu chính của chúng tôi là tận dụng thông tin trước của vật thể 2D để căn chỉnh trước các đặc điểm đa phương thức trước khi hợp nhất. Để giải quyết tình trạng mất cân bằng cục bộ, chúng tôi đề xuất Hiệu chỉnh độ sâu có hướng dẫn trước (PGDC), sử dụng thông tin trước của vật thể 2D để giảm thiểu mất cân bằng và duy trì các cặp đặc điểm đa phương thức chính xác. Để giải quyết các lỗi căn chỉnh toàn cục, chúng tôi giới thiệu phương pháp Hợp nhất Hình học Nhận biết Sự gián đoạn (DAGF), giúp loại bỏ nhiễu dư từ PGDC và tăng cường rõ rệt các biến thể độ sâu riêng biệt tại ranh giới vật thể-nền để tạo ra các biểu diễn có thể nhận dạng về mặt cấu trúc. Để sử dụng hiệu quả các biểu diễn đã căn chỉnh, chúng tôi tích hợp Bộ điều biến Độ sâu Hướng dẫn Cấu trúc (SGDM), giúp hợp nhất hiệu quả các đặc điểm độ sâu đã căn chỉnh và hình ảnh bằng cơ chế chú ý có cổng. Phương pháp được đề xuất đạt hiệu suất tiên tiến (mAP 71,5%, NDS 73,6%) trên tập dữ liệu xác thực nuScenes.

Takeaways, Limitations

•

Takeaways:

◦

Trình bày giải pháp hiệu quả cho vấn đề lỗi căn chỉnh không gian xảy ra khi kết hợp dữ liệu LiDAR và dữ liệu camera.

◦

Cải thiện độ chính xác của việc căn chỉnh tính năng đa phương thức bằng cách tận dụng thông tin trước đó của đối tượng 2D.

◦

Nhận dạng cấu trúc và cải thiện độ chính xác của biểu diễn BEV thông qua các mô-đun PGDC, DAGF và SGDM.

◦

ĐạT được hiệu suất SOTA trên tập dữ liệu nuScenes

•

Limitations:

◦

Hiệu suất của phương pháp đề xuất có thể bị giới hạn ở một tập dữ liệu cụ thể (nuScenes).

◦

ĐIều này có thể phụ thuộc vào hiệu suất của bộ phát hiện vật thể 2D, nghĩa là lỗi trong bộ phát hiện 2D có thể ảnh hưởng đến hiệu suất của toàn bộ hệ thống.

◦

Cần phải xác minh thêm hiệu suất tổng quát trong môi trường lái xe tự động thực tế.

◦

Cần nghiên cứu thêm về độ phức tạp tính toán và khả năng xử lý thời gian thực.

Xem PDF

Made with Slashpage