심층 연구 에이전트의 발전은 외부 자료를 기반으로 하는 동적 추론을 통해 자율적 지식 구축에 대한 가능성을 보여주었지만, 기존 접근 방식은 단일 컨텍스트 창에 모든 정보를 누적하는 단일 컨텍스트 패러다임에 의존하여 컨텍스트 질식 및 노이즈 오염을 야기하여 장기적인 작업에서 효과를 제한했습니다. 본 논문에서는 장기 연구를 전략적 작업 공간 재구성을 갖춘 마르코프 의사 결정 프로세스로 재구성하는 새로운 반복적 심층 연구 패러다임인 IterResearch를 소개합니다. 진화하는 보고서를 메모리로 유지하고 주기적으로 통찰력을 종합함으로써, 본 연구는 임의의 탐색 깊이에 걸쳐 일관된 추론 능력을 유지합니다. 또한 기하학적 보상 할인을 통해 효율적인 탐색을 장려하고 적응형 다운샘플링을 통해 안정적인 분산 학습을 가능하게 하는 강화 학습 프레임워크인 Efficiency-Aware Policy Optimization (EAPO)을 개발했습니다. IterResearch는 6개의 벤치마크에서 평균 +14.5pp의 상당한 개선을 달성하고 최첨단 독점 시스템과의 격차를 좁혔습니다. IterResearch는 2048번의 상호 작용으로 전례 없는 상호 작용 확장을 보여주며(3.5%에서 42.5%로), 최첨단 모델을 ReAct보다 최대 19.2pp 향상시키는 효과적인 프롬프트 전략 역할을 합니다.
시사점, 한계점
•
IterResearch는 장기적인 추론을 위한 다재다능한 솔루션으로, 훈련된 에이전트와 최첨단 모델을 위한 프롬프트 패러다임으로 효과적입니다.
•
IterResearch는 기존 오픈 소스 에이전트보다 상당한 성능 향상을 보이며, 최첨단 독점 시스템과의 격차를 좁힙니다.
•
IterResearch는 최대 2048번의 상호 작용까지 확장이 가능하며, 성능이 크게 향상됩니다.
•
IterResearch는 최첨단 모델의 프롬프트 전략으로 사용되어 성능을 향상시킬 수 있습니다.