본 논문은 다중 턴 사용자 상호작용에서 대규모 언어 모델(LLM)의 일관성 있는 응답을 평가하고 개선하기 위한 포괄적인 프레임워크를 제시한다. 주요 기여는 세 가지로, 첫째, 다중 턴 상호작용에서 초기 단계 안정성과 복구 패턴을 모두 포착하도록 설계된 위치 가중 일관성(PWC) 지표를 제시한다. 둘째, 다양한 도메인과 난이도 수준을 포함하는 신중하게 큐레이션된 벤치마크 데이터셋인 MT-Consistency를 제시하여 다양한 어려운 후속 시나리오에서 LLM 일관성을 평가한다. 셋째, 생성 과정에서 내부 모델 신뢰도 점수를 명시적으로 통합하여 응답 안정성을 크게 향상시키는 신뢰도 인식 응답 생성(CARG) 프레임워크를 제시한다. 실험 결과는 CARG가 정확성을 희생하지 않고 응답 안정성을 크게 향상시켜 중요한 실제 배포 환경에서 더욱 신뢰할 수 있는 LLM 동작을 위한 실용적인 경로를 제공함을 보여준다.