본 논문은 대규모 언어 모델(LLM)의 팩트 오류(hallucination) 문제를 해결하기 위해 능동적 계층-대조 디코딩(ActLCD)이라는 새로운 디코딩 전략을 제안합니다. 기존의 토큰 단위 디코딩 방식과 달리, ActLCD는 강화 학습 기반의 정책을 사용하여 생성 과정 중에 대조 계층을 적용할 시점을 능동적으로 결정합니다. 보상 인식 분류기를 활용하여 팩트 정확성을 최적화함으로써 토큰 수준을 넘어 긴 문맥에서의 환각을 완화합니다. 다섯 가지 벤치마크 실험 결과, ActLCD는 기존 최첨단 방법들을 능가하는 성능을 보였습니다.