대규모 언어 모델은 모호한 요청에 대해 암묵적으로 하나의 해석에 얽매여 응답하는 경향이 있으며, 이는 의도 오해와 안전 문제를 야기할 수 있습니다. 이를 해결하기 위해, 본 논문에서는 모호한 요청에 대해 하나의 구조화된 응답으로 여러 해석-답변 쌍을 생성하는 방법을 제안합니다. 제안된 모델은 강화 학습을 통해 훈련되었으며, 여러 유효한 답변을 감독 정보로 사용하여 맞춤형 보상 함수를 적용했습니다. 대화형 질의 응답 및 의미 분석 실험을 통해 제안된 방법이 기본 접근 방식보다 유효한 답변의 범위를 더 넓게 달성함을 입증했습니다. 또한 인간 평가를 통해 예측된 해석이 답변과 매우 잘 일치함을 확인했습니다. 본 연구는 명시적인 해석을 통해 투명성을 높이고, 한 번의 생성 단계만으로 효율성을 달성하며, 구조화된 출력 형식을 통해 다운스트림 응용 프로그램을 지원합니다.