Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

AI-SearchPlanner: Modular Agentic Search via Pareto-Optimal Multi-Objective Reinforcement Learning

Created by
  • Haebom

저자

Lang Mei, Zhihan Yang, Chong Chen

개요

본 논문에서는 대규모 언어 모델(LLM)과 검색 엔진을 통합하여 LLM의 내부 사전 훈련 지식과 외부 정보를 활용하는 연구에 대해 다룹니다. 특히, 강화 학습(RL)을 통해 검색 엔진과의 다회전 상호 작용을 통해 LLM 추론을 향상시키는 유망한 패러다임으로 제시됩니다. 기존 RL 기반 검색 에이전트는 검색 계획과 질문 답변(QA) 작업을 모두 처리하기 위해 단일 LLM에 의존하는데, 이는 두 가지 기능을 동시에 최적화하는 능력을 제한합니다. 본 논문에서는 고품질 QA를 보장하기 위해 크고 고정된 LLM(예: GPT-4, DeepSeek-R1)을 사용하는 정교한 AI 검색 시스템을 고려하여, 검색 계획에 전념하는 작고 훈련 가능한 LLM을 활용하는 더 효과적이고 효율적인 접근 방식을 제안합니다. AI-SearchPlanner라는 새로운 강화 학습 프레임워크를 제시하며, 검색 계획에 집중하여 고정된 QA 모델의 성능을 향상시키도록 설계되었습니다. 세 가지 핵심 혁신 (1) 검색 계획자와 생성기 아키텍처 분리, (2) 검색 계획을 위한 이중 보상 정렬, (3) 계획 유틸리티와 비용의 Pareto 최적화를 통해 목표를 달성합니다. 실제 데이터 세트에 대한 광범위한 실험을 통해 AI-SearchPlanner가 효과성과 효율성 모두에서 기존 RL 기반 검색 에이전트보다 우수하며 다양한 고정된 QA 모델과 데이터 도메인에서 강력한 일반화 기능을 보임을 보여줍니다.

시사점, 한계점

시사점:
고정된 고품질 QA 모델을 사용하여 검색 계획에 집중함으로써 RL 기반 검색 에이전트의 효율성과 효과성을 향상시킬 수 있음을 보여줍니다.
검색 계획자와 생성기 아키텍처 분리, 이중 보상 정렬, Pareto 최적화 등의 새로운 기법을 통해 성능 향상을 달성했습니다.
다양한 고정된 QA 모델과 데이터 도메인에서 강력한 일반화 성능을 보입니다.
한계점:
제안된 프레임워크의 성능은 사용된 고정된 QA 모델의 품질에 의존적일 수 있습니다.
실험은 특정 데이터 세트에 국한되어 있으며, 다른 데이터 세트에 대한 일반화 성능을 추가적으로 검증할 필요가 있습니다.
Pareto 최적화의 매개변수 설정에 대한 추가적인 연구가 필요할 수 있습니다.
👍