MemSearcher: Training LLMs to Reason, Search and Manage Memory via End-to-End Reinforcement Learning

작성자

Haebom

카테고리

Empty

저자

Qianhao Yuan, Jie Lou, Zichao Li, Jiawei Chen, Yaojie Lu, Hongyu Lin, Le Sun, Debing Zhang, Xianpei Han

💡 개요

본 논문은 대규모 언어 모델(LLM) 기반 검색 에이전트가 다중 턴 상호작용 시 발생하는 긴 입력과 높은 연산 비용 문제를 해결하기 위해 제안된 MemSearcher 프레임워크를 소개합니다. MemSearcher는 질문과 관련된 정보만을 압축된 메모리로 유지하여 컨텍스트 길이를 안정적으로 관리하며, 이를 위해 여러 LLM 컨텍스트에서 발생하는 궤적 수준의 이점을 모든 턴에 전파하여 종단간 최적화를 가능하게 하는 multi-context GRPO 기법을 도입했습니다. 실험 결과, MemSearcher는 기존의 히스토리 연결 방식 기반 에이전트보다 우수한 성능을 보이며 다중 턴 상호작용 전반에 걸쳐 거의 일정한 토큰 수를 유지했습니다.

🔑 시사점 및 한계

•

LLM 기반 검색 에이전트의 효율성을 크게 향상시켜 연산 비용 및 메모리 오버헤드를 절감할 수 있습니다.

•

다중 턴 상호작용에서 컨텍스트 길이를 효과적으로 관리함으로써 LLM의 성능 저하를 방지하고 안정적인 작동을 보장합니다.

•

다양한 LLM 컨텍스트에서의 학습 및 최적화 문제를 해결하기 위한 새로운 강화 학습 기법(multi-context GRPO)을 제시합니다.

•

본 연구는 압축된 메모리 관리의 효과를 입증했지만, 메모리 압축 과정에서 중요한 정보의 손실 가능성 또는 특정 유형의 질문에 대한 메모리 활용 최적화는 향후 연구 과제로 남습니다.

PDF 보기

Made with Slashpage