Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Think Before You Retrieve: Learning Test-Time Adaptive Search with Small Language Models

Created by
  • Haebom
Category
Empty

저자

Supriti Vijay, Aman Priyanshu, Anu Vellore, Baturay Saglam, Amin Karbasi

개요

Orion은 복잡한 사용자 쿼리에 필요한 탐색, 피드백, 수정을 반복하는 동적 방식을 포착하기 위해 학습된 검색 전략을 통해 반복적인 검색을 수행하도록 설계된 350M-1.2B 파라미터의 소형 모델을 위한 훈련 프레임워크입니다. Orion은 (1) 다양한 탐색 패턴을 장려하기 위한 합성 궤적 생성 및 지도 학습 미세 조정, (2) 효과적인 쿼리 개선 및 백트래킹 동작에 대한 보상을 제공하는 강화 학습(RL), (3) RL 중에 학습된 자기 성찰 능력을 활용하는 추론 시간 빔 서치 알고리즘을 결합합니다. 3%의 훈련 데이터만 사용했음에도 불구하고, Orion은 여러 벤치마크에서 기존 리트리버를 능가하거나 경쟁적인 성능을 보였습니다.

시사점, 한계점

시사점:
학습된 전략을 통해 모델 크기뿐만 아니라 검색 성능을 향상시킬 수 있음을 보여줍니다.
반복적 검색을 통해 복잡한 쿼리에 효과적으로 대응할 수 있는 모델을 구축할 수 있음을 입증했습니다.
RL과 같은 학습 기법을 활용하여 검색 모델의 성능을 향상시키는 새로운 방법을 제시했습니다.
한계점:
특정 벤치마크에서는 기존 모델보다 약간 낮은 성능을 보였습니다.
모델의 일반화 능력 및 다른 유형의 데이터에 대한 적용 가능성을 추가적으로 연구할 필요가 있습니다.
모델의 성능은 훈련 데이터, RL 환경 및 빔 서치 알고리즘의 세부 사항에 따라 달라질 수 있습니다.
👍