본 논문은 대규모 언어 모델(LLM)이 생성한 장문 텍스트에서 불확실성 정량화(uncertainty quantification)의 신뢰성을 하위 그룹별로 분석합니다. 개별 주장의 신뢰성(calibration)과 전체 출력의 신뢰성(conformal prediction)을 평가하기 위해, 인물소개 생성 작업을 이용하여 성별 등의 인구통계적 속성을 기반으로 하위 그룹을 구성했습니다. 기존의 불확실성 정량화 방법은 전체 데이터셋에서는 잘 작동하지만, 특정 하위 그룹에서는 신뢰성이 떨어지는 것을 확인했습니다. 따라서 그룹 조건부 방법인 다중 보정(multicalibration)과 다중 유효성 확인 예측(multivalid conformal prediction)을 적용하여 하위 그룹 내에서의 보정 및 예측 성능을 개선하였으며, 전체 데이터셋에 대한 신뢰성을 유지하는 것을 확인했습니다. 장문 텍스트 생성에서의 보정, 확인 예측 및 그 다중 그룹 버전에 대한 연구가 부족한 상황에서, 본 연구 결과는 이 분야의 기준점을 제시합니다.