Sign In

MemSearcher: Training LLMs to Reason, Search and Manage Memory via End-to-End Reinforcement Learning

Created by
  • Haebom
Category
Empty

저자

Qianhao Yuan, Jie Lou, Zichao Li, Jiawei Chen, Yaojie Lu, Hongyu Lin, Le Sun, Debing Zhang, Xianpei Han

개요

본 논문은 검색 에이전트의 효율성과 정확성 간의 균형을 맞추기 위한 MemSearcher라는 새로운 에이전트 워크플로우를 제안한다. MemSearcher는 전체 상호작용 기록을 사용하는 대신, 컴팩트한 메모리를 유지하고 현재 턴과 결합하여, 계산 및 메모리 비용을 줄이면서도 중요한 정보를 보존한다. 또한, 멀티 컨텍스트 GRPO라는 end-to-end 강화 학습 프레임워크를 도입하여 추론, 검색 전략, 메모리 관리를 공동으로 최적화한다. 그 결과, 여러 벤치마크에서 기존 모델 대비 높은 성능 향상을 달성했으며, 특히 3B 모델이 7B 모델보다 우수한 성능을 보이기도 했다.

시사점, 한계점

시사점:
검색 에이전트의 효율성을 향상시키면서 정확도를 유지하는 새로운 접근 방식 제시
컴팩트한 메모리를 활용하여 컨텍스트 길이 안정화 및 계산 비용 감소
멀티 컨텍스트 GRPO를 통한 end-to-end 최적화 프레임워크 개발
3B 모델이 7B 모델보다 우수한 성능을 보이는 결과는 효율성이 성능 향상에 기여함을 보여줌
여러 공개 벤치마크에서 기존 모델 대비 뛰어난 성능 입증
한계점:
논문에서 구체적인 한계점 언급은 없음. (아마도 추가적인 실험이나 다양한 데이터셋에 대한 검증, 또는 특정 유형의 검색 쿼리에 대한 성능 분석 등이 필요할 수 있음)
👍