강화 학습을 활용한 자율적인 딥 서치(agentic deep search)의 성능 향상을 위해, 탐색 비용 대비 낮은 보상 밀도 문제를 해결하고자 하는 연구입니다. 본 연구는 보상 밀도 최적화 문제를 제기하고, 이를 위해 InfoFlow라는 체계적인 프레임워크를 제안합니다. InfoFlow는 1) 하위 문제 분해, 2) 실패 기반 힌트 제공, 3) 이중 에이전트 정제 방식을 통해 보상 밀도를 높이는 것을 목표로 합니다. 제안된 방법론은 다양한 벤치마크에서 기존 방법론 대비 뛰어난 성능을 보였으며, 경량 LLM이 고급 LLM과 유사한 성능을 달성하도록 했습니다.