Orion은 복잡한 사용자 쿼리에 필요한 탐색, 피드백, 수정을 반복하는 동적 방식을 포착하기 위해 학습된 검색 전략을 통해 반복적인 검색을 수행하도록 설계된 350M-1.2B 파라미터의 소형 모델을 위한 훈련 프레임워크입니다. Orion은 (1) 다양한 탐색 패턴을 장려하기 위한 합성 궤적 생성 및 지도 학습 미세 조정, (2) 효과적인 쿼리 개선 및 백트래킹 동작에 대한 보상을 제공하는 강화 학습(RL), (3) RL 중에 학습된 자기 성찰 능력을 활용하는 추론 시간 빔 서치 알고리즘을 결합합니다. 3%의 훈련 데이터만 사용했음에도 불구하고, Orion은 여러 벤치마크에서 기존 리트리버를 능가하거나 경쟁적인 성능을 보였습니다.