기존 RAG 벤치마크는 질문의 난이도를 간과하여 간단한 질문에 대한 성능이 과대평가되고 평가의 신뢰성이 떨어지는 문제가 있다. 본 논문에서는 품질, 다양성, 난이도라는 세 가지 주요 기준을 충족하는 견고한 벤치마크 데이터셋을 제시하기 위해, 다중 홉 트리 구조(MHTS)라는 새로운 데이터셋 합성 프레임워크를 제안한다. MHTS는 다중 홉 트리 구조를 활용하여 논리적으로 연결된 다중 청크 질문을 생성함으로써 다중 홉 추론의 복잡성을 체계적으로 제어한다. 또한, 제안하는 세밀한 난이도 추정 공식은 RAG 시스템의 전반적인 성능 지표와 강한 상관관계를 보여, 검색 및 답변 생성 능력을 평가하는 데 효과적임을 검증한다. 따라서 품질이 높고 다양하며 난이도가 제어된 질문을 보장함으로써 RAG 평가 및 벤치마킹 기능을 향상시킨다.