Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

LongCodeBench: Đánh giá LLM mã hóa ở 1M Context Windows

Created by
  • Haebom

Tác giả

Stefano Rando, Luca Romani, Alessio Sampieri, Yuta Kyuragi, Luca Franco, Fabio Galasso, Tatsunori Hashimoto, John Yang

Phác thảo

Bài báo này đề cập đến những thách thức trong việc xây dựng các chuẩn mực ngữ cảnh dài thực tế, phù hợp với độ dài ngữ cảnh ngày càng tăng nhanh của các mô hình ngữ cảnh dài, đồng thời trình bày việc hiểu và sửa đổi mã như những tiêu chí đánh giá tự nhiên cho các mô hình ngữ cảnh dài. Chúng tôi giới thiệu chuẩn mực LongCodeBench (LCB), bao gồm các tác vụ trả lời câu hỏi ngữ cảnh dài (LongCodeQA) và sửa lỗi (LongSWE-Bench) tận dụng các vấn đề của GitHub. Bằng cách đánh giá các mô hình có kích thước khác nhau (từ Qwen2.5 14B Instruct đến Google Gemini), chúng tôi chỉ ra rằng ngữ cảnh dài vẫn là một điểm yếu đối với tất cả các mô hình, với mức giảm hiệu suất từ 29% xuống 3% đối với Claude 3.5 Sonnet và từ 70,2% xuống 40% đối với Qwen2.5.

Takeaways, Limitations

Takeaways:
Một chuẩn mực mới (LongCodeBench) để đánh giá hiệu suất của các mô hình dài hạn được trình bày.
Làm rõ __T27092_____ của mô hình ngữ cảnh dài thông qua nhiệm vụ thực tế là hiểu và sửa đổi mã.
Cung cấp phân tích so sánh hiệu suất cho các mô hình có nhiều kích cỡ khác nhau
Limitations:
Vì đây là điểm chuẩn dựa trên dữ liệu sự cố của GitHub nên có khả năng xảy ra sai lệch dữ liệu.
Vì LongCodeBench chuyên dùng để hiểu và sửa đổi mã nên khả năng tổng quát hóa của nó sang các loại tác vụ ngữ cảnh dài khác có thể bị hạn chế.
Thiếu giải thích cụ thể về thứ bậc phức tạp của các tiêu chuẩn
👍