본 논문은 LLM 기반의 에이전트 탐색에서 효과적인 추론 행동 패턴을 분석하고, 이를 기반으로 에이전트 탐색 모델을 학습하는 Behavior Priming 기법을 제안합니다. 구체적으로, 에이전트 탐색 궤적 분석을 통해 Information Verification, Authority Evaluation, Adaptive Search, Error Recovery와 같은 4가지 유익한 추론 행동을 식별하고, SFT 및 강화 학습을 통해 모델에 통합합니다. Qwen3-1.7B 및 Llama3.2-3B-Instruct 모델을 대상으로 웹 벤치마크 및 다중 홉 QA 벤치마크에서 실험한 결과, Behavior Priming이 직접 RL 학습 대비 상당한 성능 향상을 보였으며, 최종 답변의 정답 여부보다는 추론 행동이 성능 향상에 중요한 역할을 한다는 것을 밝혀냈습니다. 또한, 제안하는 방법이 모델의 탐색 능력과 테스트 시간 확장성을 향상시키는 효과를 확인했습니다.