본 논문은 개발자 질문에 대한 답변 생성 시 신뢰성 문제를 해결하기 위해, 300만 개 이상의 Java 및 Python 관련 Stack Overflow 게시글을 활용한 Retrieval-Augmented Generation (RAG) 파이프라인을 설계하고 평가했습니다. 7가지 RAG 파이프라인과 63가지 변형을 설계하여 유사한 질문에 대한 답변 정확도를 평가하고, 유사 질문이 없는 새로운 질문에는 유사도 임계값을 자동으로 낮춰 부분적으로 관련된 정보를 활용하여 답변 정확도를 높였습니다. 실험 결과, HyDE(hypothetical-documentation-embedding)와 전체 답변 컨텍스트를 결합한 RAG 파이프라인이 Stack Overflow 질문에 대한 답변 생성에 가장 효과적임을 확인했습니다. 마지막으로, 최적의 RAG 파이프라인을 4개의 오픈소스 LLM에 적용하여 Zero-shot 성능과 비교하였으며, 모든 모델에서 RAG 파이프라인이 유용성, 정확성, 상세함 측면에서 Zero-shot 기준보다 우수한 성능을 보였습니다.