Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

MoSEs: Phát hiện văn bản do AI tạo ra có nhận thức về sự không chắc chắn thông qua sự kết hợp của các chuyên gia về phong cách với ngưỡng có điều kiện

Giải mã tránh né cho việc tạo ra nhiều câu chuyện đa nhánh

HydroVision: Dự đoán các thông số quang học hoạt động trong nước mặt bằng công nghệ thị giác máy tính

HodgeFormer: Bộ biến đổi cho các toán tử có thể học được trên lưới tam giác thông qua ma trận Hodge dựa trên dữ liệu

MSA2-Net: Sử dụng mô-đun tích chập tự thích ứng để trích xuất thông tin đa tỷ lệ trong phân đoạn hình ảnh y tế

Kết nối lại thích ứng dựa trên Q-Learning để điều khiển hợp tác trong mạng không đồng nhất

Spotlighter: Xem xét lại việc điều chỉnh nhanh chóng từ góc nhìn khai thác đại diện

RAG lặp lại đa phương thức để trả lời câu hỏi trực quan về kiến thức

Trí tuệ nhân tạo hiện thân: Rủi ro mới nổi và cơ hội cho hành động chính sách

Các tiên nghiệm sinh thái học siêu việt từ các mô hình ngôn ngữ lớn giải thích quá trình học tập và ra quyết định của con người

Scaffold Diffusion: Tạo cấu trúc Voxel đa thể loại thưa thớt với sự khuếch tán rời rạc

Locus: Tổng hợp vị từ tác nhân cho Fuzzing có hướng

Rò rỉ đặc điểm và nhắc nhở ở cấp độ mạng trong các tác nhân nghiên cứu cục bộ

ĐộNg lực thông tin của sự khuếch tán sinh sản

Mạng nơ-ron tam phân in chính xác tùy ý với phép xấp xỉ tiến hóa toàn diện

Murakkab: Điều phối quy trình làm việc hiệu quả về tài nguyên trên nền tảng đám mây

LinkAnchor: Một tác nhân tự động dựa trên LLM để phục hồi liên kết từ vấn đề đến cam kết

MoNaCo: Những câu hỏi tự nhiên và phức tạp hơn để lý luận trên hàng chục tài liệu

STREAM (ChemBio): Một tiêu chuẩn để báo cáo minh bạch các đánh giá trong báo cáo mô hình AI

BadPromptFL: Mối đe dọa cửa sau mới đối với việc học liên bang dựa trên lời nhắc trong các mô hình đa phương thức

Học cách lựa chọn thuật toán MCP: Từ ML truyền thống đến GAT-MLP kênh đôi

MagicGUI: Một tác nhân GUI di động cơ bản với đường ống dữ liệu có khả năng mở rộng và tinh chỉnh tăng cường

Lớp Neurosymbolic lấy cảm hứng từ DbC cho thiết kế tác nhân đáng tin cậy

RoboMemory: Một khuôn khổ tác nhân đa bộ nhớ lấy cảm hứng từ não bộ cho việc học tập suốt đời trong các hệ thống vật lý hiện thân

LanternNet: Hệ thống trục và nan hoa để tìm kiếm và ngăn chặn quần thể ruồi đèn lồng đốm

Khi nào và ở đâu Data Poisons tấn công đảo ngược văn bản?

Bao gồm một số ràng buộc và ứng dụng của mô-đun phụ

Suy nghĩ lại về bảo vệ dữ liệu trong kỷ nguyên trí tuệ nhân tạo (sáng tạo)

LD-RPS: Khôi phục hình ảnh thống nhất không cần chụp thông qua lấy mẫu sau khuếch tán tiềm ẩn tái phát

GroundingDINO-US-SAM: Phân đoạn đa cơ quan bằng văn bản trong siêu âm với các mô hình ngôn ngữ thị giác được điều chỉnh theo LoRA

IndexTTS2: Một bước đột phá trong công nghệ chuyển văn bản thành giọng nói tự động hồi quy có kiểm soát thời lượng và biểu đạt cảm xúc

HERCULES: Phân cụm đệ quy dựa trên nhúng phân cấp sử dụng LLM để tóm tắt hiệu quả

Liên kết hình ảnh y tế đa phương thức thông qua nhúng văn bản chia sẻ

Phân đoạn toàn cảnh LiDAR tập mở được hướng dẫn bởi học tập nhận biết sự không chắc chắn

Xem xét lại việc phân cụm các nhóm cướp thần kinh: Khởi tạo lại có chọn lọc để giảm thiểu mất tính dẻo

Phân bổ dựa trên nhúng LLM (LEA): Định lượng đóng góp của nguồn vào phản ứng của mô hình tạo ra để phân tích lỗ hổng

Một khuôn khổ lý thuyết cho việc học tương phản tự giám sát đối với dữ liệu phụ thuộc liên tục

Bảo mật các tác nhân AI bằng Kiểm soát luồng thông tin

FastCache: Bộ nhớ đệm nhanh cho máy biến áp khuếch tán thông qua phép xấp xỉ tuyến tính có thể học được

Cog-TiPRO: Tinh chỉnh nhắc nhở lặp đi lặp lại với LLM để phát hiện suy giảm nhận thức thông qua các lệnh trợ lý giọng nói theo chiều dọc

Tiết lộ mô tả nhiều hình ảnh để phát hiện suy giảm nhận thức nhẹ đa ngôn ngữ thông qua học tập tương phản

NOVER: Đào tạo khuyến khích cho các mô hình ngôn ngữ thông qua học tăng cường không cần xác minh

Khi một tác nhân học tăng cường gặp phải những điều chưa biết

Tối ưu hóa chính sách nhóm trong nhóm cho đào tạo đại lý LLM

Phân tích cú pháp tự động các bản vẽ kỹ thuật để trích xuất thông tin có cấu trúc bằng cách sử dụng tài liệu được tinh chỉnh Hiểu về Transformer

LawFlow: Thu thập và mô phỏng quá trình suy nghĩ của luật sư về các nghiên cứu điển hình thành lập doanh nghiệp

Về việc các nhà phát triển tự khai báo mã do AI tạo ra: Phân tích các thực hành

WildFireCan-MMD: Bộ dữ liệu đa phương thức để phân loại nội dung do người dùng tạo ra trong các vụ cháy rừng ở Canada

Hướng tới các mô hình nền tảng MRI tim: Biểu diễn trực quan-bảng toàn diện cho đánh giá toàn bộ tim và hơn thế nữa

HDVIO2.0: Ước tính gió và nhiễu loạn với Hybrid Dynamics VIO

TruthLens: Nền tảng trực quan cho lý luận DeepFake phổ quát

Impoola: Sức mạnh của việc gộp trung bình cho học tăng cường sâu dựa trên hình ảnh

Chỉnh sửa hiệu quả các mô hình hỗn hợp chuyên gia với các chuyên gia được nén

Vấn đề đã được giải quyết? Không gian thiết kế trích xuất thông tin cho các tài liệu có bố cục phong phú sử dụng LLM

Nghiên cứu một phương pháp tiếp cận không phụ thuộc vào mô hình và không cần quy kết cho mô hình chuỗi thời gian đa biến lấy mẫu không đều

Học từ nhanh thông qua học tập trong ngữ cảnh siêu văn bản

FedP$^2$EFT: Học tập liên bang để cá nhân hóa PEFT cho các chương trình LLM đa ngôn ngữ

Dự đoán, Phân cụm, Tinh chỉnh: Một khuôn khổ tự giám sát dự đoán nhúng chung cho việc học biểu diễn đồ thị

Khảo sát về Nhận dạng cử chỉ tay từ đầu vào trực quan

Tự phản ánh theo hướng chú ý để phát hiện ảo giác không cần bắn trong các mô hình ngôn ngữ lớn

RouteNet-Gauss: Mô hình hóa mạng được tăng cường phần cứng với máy học

GalaxAlign: Mô phỏng hướng dẫn đa phương thức của các nhà khoa học công dân để phân tích hình thái thiên hà

Máy biến áp mềm cho việc học tập liên tục

Khám phá sự không chắc chắn trong phản ứng của MLLM: Đánh giá thực nghiệm trong các tình huống gây hiểu lầm

TreeBoN: Cải thiện sự liên kết thời gian suy luận với tìm kiếm cây suy đoán và lấy mẫu tốt nhất trong N

Học tập biểu diễn tính nhất quán miền để xác định lại con người suốt đời

Căn chỉnh các biểu diễn trực quan của máy và con người trên các cấp độ trừu tượng

Hướng tới AI đặc biệt trên máy gia tốc hạt

Nâng cao hiệu suất suy luận ngôn ngữ tự nhiên với biểu đồ tri thức để kiểm tra thông tin tự động về COVID-19 bằng tiếng Indonesia

Mooncake: Kiến trúc phân tách lấy KVCache làm trung tâm để phục vụ LLM

Để Xóa bỏ ảo giác LLM cần phải suy nghĩ lại về khái quát hóa

SampleAttention: Tăng tốc gần như không mất dữ liệu của suy luận LLM ngữ cảnh dài với sự chú ý thưa thớt có cấu trúc thích ứng

MF-OML: Học tăng cường trường trung bình trực tuyến với các biện pháp nghề nghiệp cho các trò chơi dân số lớn

Khung bảo vệ quyền riêng tư và bảo mật dựa trên học máy có thể giải thích được cho các hệ thống Internet vạn vật y tế

Từ số liệu đến ý nghĩa: Đã đến lúc xem xét lại việc đánh giá trong thiết kế hợp tác giữa con người và AI

P2DT: Giảm thiểu tình trạng quên trong học tập gia tăng nhiệm vụ với công cụ chuyển đổi quyết định nhắc nhở tiến bộ

Hướng tới Agentic OS: Một khuôn khổ tác nhân LLM cho các trình lập lịch Linux

CoreThink: Một lớp lý luận tượng trưng để lý luận về các nhiệm vụ đường chân trời dài với LLM

ChatCLIDS: Mô phỏng các cuộc đối thoại AI thuyết phục để thúc đẩy việc áp dụng insulin vòng kín trong chăm sóc bệnh tiểu đường loại 1

L-MARS: Quy trình làm việc đa tác nhân hợp pháp với lý luận được dàn dựng và tìm kiếm tác nhân

AHELM: Đánh giá toàn diện các mô hình ngôn ngữ âm thanh

Cỗ máy tư duy của Ramon Llull cho ý tưởng tự động

Phân công tín chỉ dựa trên tìm kiếm cho học tăng cường dựa trên sở thích ngoại tuyến

KIRETT: Trợ lý điều trị thông minh dựa trên biểu đồ kiến thức cho hoạt động cứu hộ thông minh

CoT-Tự hướng dẫn: Xây dựng các gợi ý tổng hợp chất lượng cao cho các nhiệm vụ lý luận và không lý luận

Tích hợp dự đoán hoạt động vào biểu đồ kiến thức

Các tác nhân cộng sinh: Một mô hình mới cho các mạng lưới đáng tin cậy do AGI điều khiển

ChordPrompt: Phối hợp hiệu ứng nhắc nhở đa phương thức cho việc học tập gia tăng đa miền trong CLIP

Các tác nhân nghiên cứu sâu: Một cuộc kiểm tra có hệ thống và lộ trình

Độ Dốc: Khi thị trường gặp sự tinh chỉnh -- Một cách tiếp cận phân tán để tối ưu hóa mô hình

ORMind: Một khuôn khổ lý luận toàn diện lấy cảm hứng từ nhận thức dành cho nghiên cứu hoạt động

Các tác nhân có thể tắt thông qua POST-Agency

CyberBOT: Hướng tới giáo dục an ninh mạng đáng tin cậy thông qua thế hệ tăng cường truy xuất dựa trên Ontology

PadChest-GR: Bộ dữ liệu tia _____T103335____-ngực song ngữ dùng để tạo báo cáo X quang tiếp địa

Các mô hình ngôn ngữ lớn có thể hoạt động như bộ tổng hợp cho nhiều GNN không?

MorphAgent: Trao quyền cho các tác nhân thông qua hồ sơ tự phát triển và hợp tác phi tập trung

Suy luận tiết kiệm để kiểm soát

Về việc tạo ra các giải thích thống nhất và mô hình trong các kịch bản xác suất

Khảo sát về sự hợp tác giữa con người và AI với các mô hình nền tảng lớn

JARVIS: Một khuôn khổ lý luận thông thường mang tính biểu tượng thần kinh dành cho các tác nhân hội thoại

LongCodeBench: Đánh giá LLM mã hóa ở 1M Context Windows

Created by

Haebom

Tác giả

Stefano Rando, Luca Romani, Alessio Sampieri, Yuta Kyuragi, Luca Franco, Fabio Galasso, Tatsunori Hashimoto, John Yang

Phác thảo

Bài báo này đề cập đến những thách thức trong việc xây dựng các chuẩn mực ngữ cảnh dài thực tế, phù hợp với độ dài ngữ cảnh ngày càng tăng nhanh của các mô hình ngữ cảnh dài, đồng thời trình bày việc hiểu và sửa đổi mã như những tiêu chí đánh giá tự nhiên cho các mô hình ngữ cảnh dài. Chúng tôi giới thiệu chuẩn mực LongCodeBench (LCB), bao gồm các tác vụ trả lời câu hỏi ngữ cảnh dài (LongCodeQA) và sửa lỗi (LongSWE-Bench) tận dụng các vấn đề của GitHub. Bằng cách đánh giá các mô hình có kích thước khác nhau (từ Qwen2.5 14B Instruct đến Google Gemini), chúng tôi chỉ ra rằng ngữ cảnh dài vẫn là một điểm yếu đối với tất cả các mô hình, với mức giảm hiệu suất từ 29% xuống 3% đối với Claude 3.5 Sonnet và từ 70,2% xuống 40% đối với Qwen2.5.

Takeaways, Limitations

•

Takeaways:

◦

Một chuẩn mực mới (LongCodeBench) để đánh giá hiệu suất của các mô hình dài hạn được trình bày.

◦

Làm rõ __T27092_____ của mô hình ngữ cảnh dài thông qua nhiệm vụ thực tế là hiểu và sửa đổi mã.

◦

Cung cấp phân tích so sánh hiệu suất cho các mô hình có nhiều kích cỡ khác nhau

•

Limitations:

◦

Vì đây là điểm chuẩn dựa trên dữ liệu sự cố của GitHub nên có khả năng xảy ra sai lệch dữ liệu.

◦

Vì LongCodeBench chuyên dùng để hiểu và sửa đổi mã nên khả năng tổng quát hóa của nó sang các loại tác vụ ngữ cảnh dài khác có thể bị hạn chế.

◦

Thiếu giải thích cụ thể về thứ bậc phức tạp của các tiêu chuẩn

Made with Slashpage