Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

ẢO tưởng SWE-Bench: Khi các LLM hiện đại ghi nhớ thay vì lý trí

Created by
  • Haebom

Tác giả

Shanchao Liang, Spandan Garg, Roshanak Zilouchian Moghaddam

Phác thảo

Bài báo này nêu bật lỗ hổng trong SWE-Bench Verified, một chuẩn mực để đánh giá khả năng kỹ thuật phần mềm của các mô hình ngôn ngữ quy mô lớn (LLM). Mặc dù các LLM gần đây thể hiện hiệu suất cao trên SWE-Bench, nhưng điều này có thể là do ghi nhớ hoặc nhiễm bẩn dữ liệu hơn là khả năng giải quyết vấn đề thực tế. Để xác minh điều này, bài báo trình bày hai nhiệm vụ chẩn đoán: xác định đường dẫn tệp chỉ dựa trên mô tả vấn đề và tái tạo các hàm chỉ dựa trên bối cảnh tệp hiện tại và mô tả vấn đề. Kết quả thử nghiệm cho thấy trong khi các mô hình tiên tiến thể hiện độ chính xác cao trên dữ liệu có trong SWE-Bench, độ chính xác của chúng giảm mạnh trên dữ liệu không có trong đó, làm dấy lên lo ngại về độ tin cậy của kết quả đánh giá của SWE-Bench. Điều này nhấn mạnh nhu cầu về một chuẩn mực mạnh mẽ hơn và chống nhiễm bẩn hơn để đánh giá khả năng mã hóa LLM.

Takeaways, Limitations

Takeaways: Điều này chứng minh rằng các tiêu chuẩn hiện có, chẳng hạn như SWE-Bench Verified, có thể không đánh giá chính xác khả năng giải quyết vấn đề thực tế của LLM. Cần một tiêu chuẩn mạnh mẽ hơn, ngăn ngừa việc ghi nhớ và làm nhiễu dữ liệu để đánh giá hiệu suất của LLM. Cần một phương pháp đánh giá mới phân biệt giữa khả năng giải quyết vấn đề tổng quát và khả năng ghi nhớ của LLM.
Limitations: Hai bài tập chẩn đoán được trình bày có thể chỉ đánh giá các loại kỹ năng giải quyết vấn đề cụ thể. Cần có một chuẩn mực toàn diện hơn, bao gồm nhiều nhiệm vụ kỹ thuật phần mềm hơn. Kết quả có thể không mang tính khái quát do đặc điểm của tập dữ liệu được sử dụng trong nghiên cứu này.
👍