Retrieval-Augmented Generation (RAG) 모델에서 쿼리의 특성에 따라 적절한 수의 문서를 검색하는 것이 중요하지만, 기존의 고정된 top-k 방식은 이를 제대로 반영하지 못합니다. 본 논문에서는 쿼리-문서 유사도 거리의 클러스터링 패턴을 분석하여 최적의 문서 수를 동적으로 결정하는 Cluster-based Adaptive Retrieval (CAR) 알고리즘을 제안합니다. CAR은 유사도 거리 내에서 밀집된 관련 문서에서 덜 관련된 후보로 전환되는 지점을 감지하여 쿼리 복잡도에 따라 조정되는 적응형 컷오프를 설정합니다. Coinbase의 CDP corpus 및 MultiHop-RAG 벤치마크에서 CAR은 최적의 검색 깊이를 일관되게 선택하고 최고의 TES 점수를 달성했습니다. 또한, CAR은 LLM 토큰 사용량을 60% 절감하고, end-to-end 지연 시간을 22% 단축하며, 환각을 10% 줄이면서도 답변 관련성을 완전히 유지합니다. Coinbase 가상 비서에 CAR을 통합한 결과, 사용자 참여가 200% 증가했습니다.