Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Bẫy phức tạp: Che dấu quan sát đơn giản hiệu quả như tóm tắt LLM cho quản lý bối cảnh tác nhân

Created by
  • Haebom

Tác giả

Tobias Lindenbauer, Igor Slinko, Ludwig Felder, Egor Bogomolov, Yaroslav Zharov

Phác thảo

Để Giải quyết vấn đề chi phí cao của các tác nhân kỹ thuật phần mềm (SWE) dựa trên mô hình ngôn ngữ quy mô lớn (LLM) do lịch sử ngữ cảnh dài của chúng, bài báo này so sánh và phân tích các phương pháp tóm tắt dựa trên LLM hiện có với một chiến lược che dấu quan sát đơn giản. Các thí nghiệm sử dụng năm cấu hình mô hình khác nhau chứng minh rằng chiến lược che dấu quan sát giảm một nửa chi phí trong khi vẫn duy trì tỷ lệ thành công tương đương hoặc cao hơn một chút so với phương pháp tóm tắt LLM. Ví dụ, trong mô hình Qwen3-Coder 480B, che dấu quan sát đã cải thiện tỷ lệ thành công từ 53,8% lên 54,8%. Điều này cho thấy phương pháp đơn giản nhất có thể là cách hiệu quả và hiệu suất nhất để quản lý ngữ cảnh trong các tác nhân SWE. Để đảm bảo tính tái tạo, mã và dữ liệu được công khai.

Takeaways, Limitations

Takeaways: Chúng tôi chứng minh rằng một chiến lược che dấu quan sát đơn giản có thể hiệu quả và tiết kiệm chi phí hơn so với tóm tắt LLM trong quản lý ngữ cảnh cho các tác nhân SWE dựa trên LLM. Điều này cho thấy một phương pháp tiếp cận đơn giản có thể vượt trội hơn các kỹ thuật tóm tắt phức tạp.
Limitations: Nghiên cứu này chỉ giới hạn ở một tác nhân SWE cụ thể (SWE-agent) và chuẩn mực (SWE-bench Verified), và khả năng khái quát hóa cho các tác nhân hoặc chuẩn mực khác còn hạn chế. Cần nghiên cứu thêm về nhiều mô hình và tác vụ LLM khác nhau.
👍