본 논문은 교육 분야에서 대규모 언어 모델(LLM) 기반 질의응답(QA) 시스템의 사용이 증가함에 따라, 개별 파이프라인 구성 요소별 성능 평가의 중요성을 강조합니다. 본 연구는 모듈형 함수 호출 LLM 파이프라인인 {\model}을 소개하고, 함수 호출 전략, 검색 방법, 생성 언어 모델의 세 가지 주요 축을 중심으로 포괄적인 평가를 제시합니다. 각 구성 요소를 분리하고 평가함으로써 세분화된 분석을 가능하게 합니다. 본 연구는 LLM 간의 함수 호출 성능을 벤치마킹하고, 구조 인식 검색 방법을 벡터 기반 및 LLM 점수 기반의 기준선과 비교하며, 다양한 LLM을 사용하여 응답 합성을 평가합니다. 이 모듈형 접근 방식은 특정 실패 모드와 성능 패턴을 드러내어 해석 가능하고 효과적인 교육 QA 시스템 개발을 지원합니다.