Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Bẫy phức tạp: Che dấu quan sát đơn giản hiệu quả như tóm tắt LLM cho quản lý bối cảnh tác nhân

Created by
  • Haebom

Tác giả

Tobias Lindenbauer, Igor Slinko, Ludwig Felder, Egor Bogomolov, Yaroslav Zharov

Phác thảo

Bài báo này trình bày kết quả phân tích so sánh các chiến lược quản lý lịch sử ngữ cảnh dài trong một tác nhân kỹ thuật phần mềm (SWE) dựa trên mô hình ngôn ngữ quy mô lớn (LLM). Chúng tôi đã so sánh các phương pháp tóm tắt dựa trên LLM hiện có, chẳng hạn như OpenHands và Cursor, với phương pháp che ngữ cảnh quan sát, một phương pháp đơn giản bỏ qua các quan sát trước đó, sử dụng nhiều cấu hình mô hình trên tập dữ liệu SWE-bench Verified. Chúng tôi nhận thấy rằng chiến lược che ngữ cảnh quan sát đạt được tỷ lệ giải quyết vấn đề tương tự hoặc cao hơn một chút so với các phương pháp tóm tắt dựa trên LLM, đồng thời giảm một nửa chi phí. Ví dụ, trên mô hình Qwen3-Coder 480B, phương pháp che ngữ cảnh quan sát đã cải thiện tỷ lệ giải quyết vấn đề từ 53,8% lên 54,8%, đạt hiệu suất tương tự như tóm tắt LLM với chi phí thấp hơn. Nghiên cứu này cho thấy, ít nhất là trong môi trường SWE-agent và SWE-bench Verified, cách quản lý ngữ cảnh hiệu quả và hiệu suất nhất có thể là cách tiếp cận đơn giản nhất. Để có thể tái tạo, chúng tôi cung cấp mã và dữ liệu.

Takeaways, Limitations

Takeaways:
Chúng tôi chứng minh rằng một chiến lược che dấu quan sát đơn giản có thể hiệu quả hơn các kỹ thuật tóm tắt phức tạp trong các tác nhân SWE dựa trên LLM.
Chúng tôi trình bày một chiến lược quản lý bối cảnh thực tế có thể đồng thời giảm chi phí và cải thiện hiệu suất.
Nó cung cấp một góc nhìn mới về quản lý ngữ cảnh hiệu quả trong các tác nhân dựa trên LLM.
Limitations:
Nghiên cứu chỉ giới hạn ở một tác nhân cụ thể (SWE-agent) và tập dữ liệu (SWE-bench Verified), điều này có thể hạn chế khả năng khái quát hóa.
Kết quả có thể khác nhau đối với các chương trình LLM hoặc loại công việc khác.
Cần có thêm nghiên cứu về hiệu suất và tính ổn định lâu dài của các chiến lược che giấu quan sát.
👍