본 논문은 복잡한 다단계 추론 과제에서 표준 오픈-웨이트 LLMs의 성능을 향상시키기 위해 Conformal Language Modelling (CLM)과 Answer Set Programming (ASP)을 함께 사용하는 방법을 조사합니다. 공간 추론을 필요로 하는 StepGame 데이터셋을 사용하여, CLM을 통해 LLM에서 ASP 프로그램 집합을 생성하고 출력의 정확성에 대한 통계적 보장을 제공합니다. 실험 결과, CLM은 표준 샘플링 방법을 사용하는 기준 모델보다 성능이 훨씬 뛰어나며 다양한 추론 복잡도 수준에서 상당한 정확도 향상을 달성함을 보여줍니다. 또한, LLM-as-Judge 메트릭은 특히 구조적 및 논리적으로 정확한 ASP 출력을 평가하는 데 CLM의 성능을 향상시킵니다. 그러나 다양한 보정 집합으로 CLM을 보정해도 훨씬 더 긴 추론 단계를 필요로 하는 과제에 대한 일반화 성능은 향상되지 않았는데, 이는 더 복잡한 과제를 처리하는 데 있어 한계를 나타냅니다.