Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

MỞ ĐẦU: Một chuẩn mực được thiết kế để yêu cầu sự hiểu biết và lý luận toàn cầu trong bối cảnh dài

Preacher: Hệ thống Agentic chuyển đổi từ giấy sang video

ẢO giác so với diễn giải: suy nghĩ lại về độ chính xác và độ tin cậy trong trích xuất dữ liệu hỗ trợ AI để tổng hợp kiến thức

Dự báo thời tiết phi tập trung thông qua học máy phân tán và xác thực mô hình dựa trên blockchain

AI thiên vị cải thiện khả năng ra quyết định của con người nhưng lại làm giảm lòng tin

Bản dịch tính năng được cá nhân hóa để nhận dạng biểu thức: Phương pháp chuyển đổi miền không cần nguồn hiệu quả

Một khuôn khổ thần kinh tượng trưng cho việc phát hiện tấn công nhận thức có thể diễn giải trong thực tế tăng cường

IAD-R1: Tăng cường lý luận nhất quán trong phát hiện bất thường công nghiệp

EvaDrive: Tối ưu hóa chính sách đối nghịch tiến hóa cho việc lái xe tự động toàn diện

Hiểu về mặt lý thuyết học tập trong ngữ cảnh dựa trên bộ biến đổi để tối ưu hóa CSMA

ASPD: Mở khóa giải mã nối tiếp-song song thích ứng bằng cách khám phá tính song song nội tại trong LLM

BiasGym: Những thành kiến LLM tuyệt vời và cách tìm ra (và loại bỏ) chúng

Yan: Thế hệ video tương tác cơ bản

M3-Net: Mô hình MLP không đồ thị hiệu quả về mặt chi phí để dự đoán lưu lượng truy cập

Mạng không dây vùng cơ thể thích ứng 6G do LLM điều khiển: Khảo sát và Khung

ẢO tưởng về sự tiến bộ: Đánh giá lại khả năng phát hiện ảo giác trong LLM

Hiểu về động lực của năng lực mô hình trong học tập liên tục

WeChat-YATT: Một công cụ huấn luyện RLHF đơn giản, có khả năng mở rộng và cân bằng

Cải thiện việc tạo tiêu đề cá nhân hóa thông qua việc loại bỏ nhiễu sở thích giả mạo từ phản hồi ngầm định

Chương trình học động nhận thức độ cứng để nhận dạng cảm xúc đa phương thức mạnh mẽ với các phương thức còn thiếu

Tiếng vọng của Tự động hóa: Việc sử dụng ngày càng nhiều LLM trong việc Làm báo

SIFThinker: Tập trung hình ảnh có nhận thức không gian cho tư duy thị giác

Shuffle-R1: Khung RL hiệu quả cho các mô hình ngôn ngữ lớn đa phương thức thông qua Shuffle động lấy dữ liệu làm trung tâm

Hướng tới AI đại diện thể hiện: Đánh giá và phân loại tính tự chủ và tương tác của robot do LLM và VLM điều khiển

Vị trí: Mô hình Hội nghị AI Hiện tại Không Bền vững! Chẩn đoán Khủng hoảng Hội nghị AI Tập trung

MSC: Bộ dữ liệu video về động vật hoang dã biển với phân đoạn thực tế và chú thích cấp độ clip

Mô hình ngôn ngữ tự hỏi

Khám phá ứng dụng của Trả lời câu hỏi trực quan (VQA) để giám sát hoạt động lớp học

Oranits: Phân công nhiệm vụ và dỡ bỏ nhiệm vụ trong ITS dựa trên Open RAN bằng cách sử dụng học siêu thuật toán và học tăng cường sâu

DeepWriter: Trợ lý viết đa phương thức dựa trên cơ sở dữ liệu kiến thức ngoại tuyến

Lựa chọn Coreset theo tỷ lệ lớp cho dữ liệu có thể phân tách theo độ khó

Trả lời câu hỏi về không gian kho với chuyên viên LLM

CodeJudgeBench: Đánh giá chuẩn LLM-as-a-Judge cho các nhiệm vụ lập trình

AmpLyze: Mô hình học sâu để dự đoán nồng độ tan máu

EXAONE Path 2.0: Mô hình nền tảng bệnh lý với giám sát toàn diện

GLM-4.1V-Suy nghĩ và GLM-4.5V: Hướng tới lý luận đa phương thức linh hoạt với học tăng cường có khả năng mở rộng

Tại sao các chương trình Thạc sĩ Luật Nguồn mở lại gặp khó khăn trong việc phân tích dữ liệu? Một nghiên cứu thực nghiệm có hệ thống

Bộ mã hóa tự động mặt nạ đồ thị nhận biết sự khác biệt

Tấn công tạo sinh dựa trên cấu trúc ngữ nghĩa để tăng cường khả năng chuyển giao đối nghịch

So sánh định lượng các kỹ thuật tinh chỉnh cho các mô hình khuếch tán tiềm ẩn được đào tạo trước trong quá trình tạo ảnh SAR không nhìn thấy được

PromptTSS: Một phương pháp tiếp cận dựa trên lời nhắc cho phân đoạn chuỗi thời gian đa chi tiết tương tác

15.500 giây: Phân loại UAV tinh gọn sử dụng EfficientNet và tinh chỉnh nhẹ

Các cuộc tấn công nhanh chóng tiết lộ việc loại bỏ kiến thức hời hợt trong các phương pháp bỏ học

Cắt tỉa dữ liệu bằng cách tối đa hóa thông tin

CCL-LGS: Học tập mã tương phản cho ngôn ngữ 3D Gaussian Splatting

Mối quan ngại về bảo mật đối với các mô hình ngôn ngữ lớn: Một cuộc khảo sát

Tối ưu hóa lượng tử đã sẵn sàng chưa? Nỗ lực hướng tới nén mạng nơ-ron bằng điện toán lượng tử đoạn nhiệt

Giải mã CHAD lặp đi lặp lại

FreeKV: Tăng cường khả năng truy xuất bộ nhớ đệm KV để suy luận LLM hiệu quả

LaDi-WM: Mô hình thế giới dựa trên khuếch tán tiềm ẩn cho thao tác dự đoán

Quay theo trình tự nhóm: Tối ưu hóa phép biến đổi quay để lượng tử hóa miễn phí

Máy đánh bạc đa tay có ngân sách thích ứng cho IoT với các ràng buộc tài nguyên động

Máy biến đổi thị giác trong nông nghiệp chính xác: Một khảo sát toàn diện

Dự báo chuỗi thời gian hướng mục tiêu: Thiết kế khung nền tảng

CAPTURe: Đánh giá khả năng suy luận không gian trong các mô hình ngôn ngữ thị giác thông qua việc đếm đối tượng bị che khuất

FinSage: Hệ thống RAG đa năng cho việc nộp hồ sơ tài chính - Trả lời câu hỏi

GraspClutter6D: Bộ dữ liệu thực tế quy mô lớn cho nhận thức và nắm bắt mạnh mẽ trong các cảnh lộn xộn

Hyperflux: Việc cắt tỉa cho thấy tầm quan trọng của trọng lượng

ToolACE-R: Đào tạo lặp lại nhận biết mô hình và tinh chỉnh thích ứng cho việc học công cụ

UniOcc: Một chuẩn mực thống nhất cho dự báo và dự đoán về tình trạng chiếm dụng trong xe tự hành

VectorFit: Tinh chỉnh vectơ thích ứng kỳ dị và vectơ thiên vị của các mô hình nền tảng được đào tạo trước

BitDecoding: Mở khóa lõi Tensor cho LLM ngữ cảnh dài với bộ đệm KV bit thấp

Phân tích tình cảm có thể giải thích được với DeepSeek-R1: Hiệu suất, Hiệu quả và Học tập ít lần

Học tập liên tục cho nhiều phương thức

ĐưA MAPF tiến gần hơn đến thế giới thực: Nền tảng thử nghiệm thực tế đa tác nhân có khả năng mở rộng (SMART)

LED-Merging: Giảm thiểu xung đột an toàn-tiện ích trong mô hình sáp nhập với vị trí-bầu cử-không giao nhau

Tăng cường tổng quát hóa chéo vấn đề trong bộ giải kết hợp thần kinh dựa trên khuếch tán thông qua điều chỉnh thời gian suy luận

Chia sẻ nhịp điệu: Một mô hình lấy cảm hứng từ sinh học cho việc học thích ứng không cần chỉnh sửa trong mạng nơ-ron

ĐO lường tính đa dạng trong các tập dữ liệu tổng hợp

Mô hình phản hồi trễ với các hàm ảnh hưởng

Rollout Roulette: Một phương pháp suy luận xác suất để mở rộng thời gian suy luận của LLM bằng phương pháp Monte Carlo dựa trên hạt

CLoQ: Nâng cao khả năng tinh chỉnh LLM lượng tử thông qua khởi tạo LoRA hiệu chuẩn

Fleurs-SLU: Một chuẩn mực đa ngôn ngữ cho khả năng hiểu ngôn ngữ nói

ODE thần kinh có thể diễn giải để khám phá mạng lưới điều hòa gen dưới sự nhiễu loạn

Máy biến áp nhẹ với chức năng chú ý chéo chỉ pha để xác thực sinh trắc học bất biến với ánh sáng

Hiểu các mô hình thị giác dựa trên máy biến áp thông qua đảo ngược

INSIGHT: Phân tích hình ảnh y tế được giám sát yếu có thể giải thích được

Visual SLAMMOT xem xét nhiều mô hình chuyển động

Một phương pháp tiếp cận không cần đào tạo để chuyển giao phong cách âm nhạc với các mô hình khuếch tán tiềm ẩn

Tối ưu hóa đa mục tiêu trong thiết kế CPU - Khám phá không gian: Chỉ cần chú ý là đủ

DiRW: Học đồ thị có nhận biết đường dẫn cho Heterophily

ĐA dạng hóa các hành vi chính sách với sự tò mò về hành vi bên ngoài

Sự diễn đạt bằng lời của bộ nhớ theo từng giai đoạn sử dụng các biểu diễn phân cấp của trải nghiệm robot suốt đời

Mạng nơ-ron tổng quát hóa trên dữ liệu có độ phức tạp thấp

Kiểm tra tính nhất quán dựa trên kiến thức của các mô hình ngôn ngữ lớn

Thuật toán tập hợp an toàn ngầm định cho việc học tăng cường an toàn có thể chứng minh được

Một mô hình dựa trên bộ biến đổi có thể giải thích được để phát hiện email lừa đảo: Phương pháp tiếp cận mô hình ngôn ngữ lớn

Giảm chi phí truyền thông cho việc đếm đồ thị con theo quyền riêng tư vi phân cục bộ thông qua hàm băm

Lỗi tính toán và suy luận toán học của các mô hình ngôn ngữ lớn

OpenCUA: Nền tảng mở cho các tác nhân sử dụng máy tính

Báo cáo kỹ thuật Compass-Thinker-7B

TextQuests: Các chương trình LLM về trò chơi điện tử dựa trên văn bản có tốt không?

Về định nghĩa của trí thông minh

Vượt xa độ chính xác: Độ nhạy siêu nhận thức của AI cải thiện việc ra quyết định được hỗ trợ bởi AI như thế nào

LAPO: Nội tâm hóa hiệu quả suy luận thông qua tối ưu hóa chính sách thích ứng với độ dài

FAIRGAME: Một khuôn khổ cho việc nhận dạng thiên kiến của các tác nhân AI bằng cách sử dụng Lý thuyết trò chơi

MedRep: Biểu diễn khái niệm y tế cho các mô hình Quỹ hồ sơ sức khỏe điện tử chung

Một trình tối ưu hóa khóa ngẫu nhiên cho tối ưu hóa tổ hợp

Người học liên kết đào tạo chéo để khái quát hóa mạnh mẽ trong điều kiện dữ liệu không đồng nhất

Tận dụng các mô hình ngôn ngữ lớn để đưa ra phán quyết có liên quan trong việc truy xuất vụ án pháp lý

CodeJudgeBench: Đánh giá chuẩn LLM-as-a-Judge cho các nhiệm vụ lập trình

Created by

Haebom

Tác giả

Hongchao Jiang, Yiming Chen, Yushi Cao, Hung-yi Lee, Robby T. Tan

Phác thảo

Bài báo này giới thiệu CodeJudgeBench, một chuẩn mực mới sử dụng các mô hình ngôn ngữ quy mô lớn (LLM) làm công cụ đánh giá mã (LLM-as-a-Judge). CodeJudgeBench được thiết kế để đánh giá hiệu suất của các mô hình LLM-as-a-Judge trên ba tác vụ mã hóa: tạo mã, sửa đổi mã và tạo thử nghiệm đơn vị. Đánh giá toàn diện 26 mô hình LLM-as-a-Judge, chúng tôi nhận thấy rằng các mô hình tiên tiến có khả năng suy luận vượt trội đáng kể so với các mô hình không có khả năng suy luận. Ngay cả các mô hình suy luận tương đối nhỏ, chẳng hạn như Qwen3-8B, cũng vượt trội hơn các mô hình LLM-as-a-Judge được đào tạo đặc biệt với kích thước lên tới 70B tới 70%. Tuy nhiên, tất cả các mô hình đều thể hiện tính ngẫu nhiên đáng kể khi đánh giá các tác vụ mã hóa và trong các tác vụ so sánh từng cặp, ngay cả việc thay đổi thứ tự trình bày phản hồi cũng ảnh hưởng đáng kể đến độ chính xác. Hơn nữa, chúng tôi quan sát thấy hiệu suất của các mô hình LLM-as-a-Judge khác nhau khi đánh giá mã và các bài kiểm tra đơn vị được viết bởi các LLM khác nhau. Độ nhạy này làm dấy lên lo ngại về độ tin cậy và tính nhất quán của LLM-as-a-Judge trong các tình huống mã hóa. Cuối cùng, chúng tôi đã nghiên cứu chiến lược gợi ý tối ưu cho LLM-as-a-Judge, nhận thấy rằng so sánh từng cặp vượt trội hơn so với phán đoán điểm số đơn, và việc giữ lại các nhận xét và suy luận từ toàn bộ phản hồi LLM chưa qua xử lý đã cải thiện hiệu suất phán đoán.

Takeaways, Limitations

•

Takeaways:

◦

CodeJudgeBench cung cấp chuẩn mực để đánh giá hiệu suất của các mô hình LLM-as-a-Judge.

◦

Những người có bằng LLM có kỹ năng tư duy phản biện sẽ thực hiện tốt hơn các nhiệm vụ đánh giá mã.

◦

Ngay cả những mô hình tương đối nhỏ cũng có thể hoạt động tốt hơn những mô hình lớn hơn.

◦

Chúng tôi thấy rằng chiến lược gợi ý bao gồm so sánh từng cặp và thông tin chú thích và suy luận là hiệu quả.

•

Limitations:

◦

Tất cả các mô hình LLM-as-a-Judge vẫn thể hiện tính ngẫu nhiên đáng kể.

◦

Thứ tự trình bày câu trả lời có thể ảnh hưởng đáng kể đến kết quả đánh giá.

◦

Không có sự nhất quán trong kết quả đánh giá cho mã được tạo bởi các LLM khác nhau.

◦

Người ta lo ngại về độ tin cậy và tính nhất quán của chương trình LLM-as-a-Judge.

Xem PDF

Made with Slashpage