본 논문은 대규모 언어 모델(LLM)이 실제 개방형 질의응답(QA)과 같은 위험 민감 응용 분야에 배포됨에 따라, 그 출력의 신뢰성을 보장하는 것이 중요해짐에 따라 제안된 연구입니다. 기존의 선택적 컨포멀 예측(SCP) 방법은 정확한 답변에 대해 제한된 오포함률을 가진 예측 집합을 구성하여 통계적 보장을 제공하지만, 모든 인스턴스에 대한 허용 가능한 답변을 유한한 샘플링을 통해 얻을 수 있다는 비현실적인 가정을 합니다. 이러한 문제를 해결하기 위해, SAFER (abstention-aware sampling and conformalized filtering)라는 두 단계의 위험 제어 프레임워크를 도입합니다. 첫째, SAFER는 사용자 정의 위험 수준(최대 허용 오포함률)에서 Clopper-Pearson exact method를 사용하여 보류된 검증 집합에 대한 최대 샘플링 캡 내에서 샘플링 예산을 조정합니다. 캡 내에서 위험 수준을 충족할 수 없는 경우, 보류합니다. 그렇지 않으면, 조정된 샘플링 예산이 테스트 시 최소 요구 사항이 됩니다. 둘째, 조정된 예산 하에서 정확한 답변을 얻을 수 있는 검증 인스턴스를 사용하여 컨포멀 위험 제어 방법을 적용하여 통계적으로 유효한 불확실성 임계값을 결정합니다. 이는 각 테스트 데이터 포인트에 대한 후보 집합에서 신뢰할 수 없는 방해 요소를 필터링합니다. 또한, SAFER는 추가 위험 수준을 도입하여 임계값 계산을 안내함으로써 정확한 답변이 제외될 위험을 제어합니다. 마지막으로, SAFER가 다양한 작업별 허용 기준 및 검증-테스트 분할 비율과 호환되어 견고성과 높은 데이터 효율성을 강조합니다.