Bài báo này đề cập đến những hạn chế của các tác nhân ngôn ngữ hiện đại trong việc thu thập thông tin bên ngoài, thích ứng với các quan sát và trả lời các câu hỏi phụ thuộc lẫn nhau trong các tương tác dài hạn, nhiều vòng. Các hệ thống LLM hiện tại dựa vào việc nhắc nhở ngữ cảnh đầy đủ, bổ sung tất cả các vòng trước bất kể mức độ liên quan, dẫn đến tăng trưởng bộ nhớ vô hạn, tăng chi phí tính toán và hiệu suất suy luận kém đối với các độ dài đầu vào nằm ngoài phân phối. Để đáp lại, bài báo này đề xuất MEM1, một khuôn khổ học tăng cường đầu cuối có thể thực hiện các tác vụ dài hạn, nhiều vòng bằng cách sử dụng bộ nhớ hằng số. MEM1 cập nhật trạng thái nội bộ được chia sẻ nén hỗ trợ tích hợp bộ nhớ và suy luận ở mỗi vòng, tích hợp các quan sát mới từ môi trường với các ký ức trước đó đồng thời loại bỏ thông tin không liên quan hoặc dư thừa một cách chiến lược. Ngoài ra, chúng tôi đề xuất một phương pháp đơn giản nhưng hiệu quả và có khả năng mở rộng để hỗ trợ việc học trong các môi trường thực tế và mang tính xây dựng hơn bằng cách kết hợp các tập dữ liệu hiện có thành các chuỗi tác vụ phức tạp tùy ý. Các thử nghiệm trên ba miền, bao gồm QA tìm kiếm nội bộ, QA web miền mở và mua sắm web đa bước nhảy, chứng minh rằng MEM1-7B cải thiện hiệu suất gấp 3,5 lần so với Qwen2.5-14B-Instruct trên tác vụ QA đa bước nhảy 16 mục tiêu, đồng thời giảm mức sử dụng bộ nhớ xuống 3,7 lần, và có khả năng khái quát hóa vượt xa giai đoạn huấn luyện. Kết quả của chúng tôi chứng minh tiềm năng của tích hợp bộ nhớ dựa trên suy luận như một giải pháp thay thế có thể mở rộng cho các giải pháp hiện có để huấn luyện các tác nhân tương tác dài hạn, tối ưu hóa cả hiệu quả và hiệu suất.