Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction

Created by
  • Haebom
Category
Empty

저자

Guoxin Chen, Zile Qiao, Xuanzhong Chen, Donglei Yu, Haotian Xu, Wayne Xin Zhao, Ruihua Song, Wenbiao Yin, Huifeng Yin, Liwen Zhang, Kuan Li, Minpeng Liao, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou

개요

심층 연구 에이전트의 발전은 외부 자료를 기반으로 하는 동적 추론을 통해 자율적 지식 구축에 대한 가능성을 보여주었지만, 기존 접근 방식은 단일 컨텍스트 창에 모든 정보를 누적하는 단일 컨텍스트 패러다임에 의존하여 컨텍스트 질식 및 노이즈 오염을 야기하여 장기적인 작업에서 효과를 제한했습니다. 본 논문에서는 장기 연구를 전략적 작업 공간 재구성을 갖춘 마르코프 의사 결정 프로세스로 재구성하는 새로운 반복적 심층 연구 패러다임인 IterResearch를 소개합니다. 진화하는 보고서를 메모리로 유지하고 주기적으로 통찰력을 종합함으로써, 본 연구는 임의의 탐색 깊이에 걸쳐 일관된 추론 능력을 유지합니다. 또한 기하학적 보상 할인을 통해 효율적인 탐색을 장려하고 적응형 다운샘플링을 통해 안정적인 분산 학습을 가능하게 하는 강화 학습 프레임워크인 Efficiency-Aware Policy Optimization (EAPO)을 개발했습니다. IterResearch는 6개의 벤치마크에서 평균 +14.5pp의 상당한 개선을 달성하고 최첨단 독점 시스템과의 격차를 좁혔습니다. IterResearch는 2048번의 상호 작용으로 전례 없는 상호 작용 확장을 보여주며(3.5%에서 42.5%로), 최첨단 모델을 ReAct보다 최대 19.2pp 향상시키는 효과적인 프롬프트 전략 역할을 합니다.

시사점, 한계점

IterResearch는 장기적인 추론을 위한 다재다능한 솔루션으로, 훈련된 에이전트와 최첨단 모델을 위한 프롬프트 패러다임으로 효과적입니다.
IterResearch는 기존 오픈 소스 에이전트보다 상당한 성능 향상을 보이며, 최첨단 독점 시스템과의 격차를 좁힙니다.
IterResearch는 최대 2048번의 상호 작용까지 확장이 가능하며, 성능이 크게 향상됩니다.
IterResearch는 최첨단 모델의 프롬프트 전략으로 사용되어 성능을 향상시킬 수 있습니다.
본 논문에서는 IterResearch의 한계점에 대한 구체적인 언급은 없습니다.
👍