본 논문은 정적 파라미터 지식으로 인해 최신 정보가 필요한 작업에서 성능이 저하되는 대규모 언어 모델(LLM)의 한계를 해결하기 위해, 강화 학습을 활용한 새로운 검색 에이전트인 O$^2$-Searcher를 제시합니다. O$^2$-Searcher는 외부 지식과 모델의 추론 과정을 분리하여 동적인 지식 획득을 위한 효율적인 지역 시뮬레이션 검색 환경을 활용합니다. 세심하게 설계된 보상 함수를 사용하는 통합 학습 메커니즘을 통해 문제 유형을 식별하고 다양한 답변 생성 전략을 적용합니다. 또한, 다양한 분야의 300개 수동 커레이션된 개방형 질문과 관련 웹 페이지 캐시로 구성된 고품질 벤치마크 O$^2$-QA를 제시하여 복잡한 개방형 과제에 대한 성능을 평가합니다. 실험 결과, 3B 모델만을 사용하는 O$^2$-Searcher는 O$^2$-QA에서 기존 최고 성능의 LLM 에이전트를 크게 능가하며, 다양한 폐쇄형 QA 벤치마크에서도 동일한 크기의 모델보다 최고 성능을 달성하고, 훨씬 큰 모델과 비슷한 성능을 보였습니다.
시사점, 한계점
•
시사점:
◦
강화학습 기반의 검색 에이전트를 통해 개방형 및 폐쇄형 질문 모두에 효과적으로 대처할 수 있는 방법을 제시.
◦
외부 지식과 모델 추론 과정의 분리를 통해 효율적인 지식 획득 및 모델 성능 향상 가능성 제시.