본 논문은 정보 정렬 평가기가 NLG 평가 및 신뢰할 수 있는 LLM 배포에 중요하지만, 기존의 세밀한 방법들은 사실 간의 상호 의존성을 무시하여 교묘한 취약성을 허용한다는 점을 지적합니다. 이에 연구진은 사실적인 진술들을 조합하여 기만적인 서술을 만드는 MontageLie 벤치마크를 제시하고, 기존의 평가기들이 이 공격에 취약함을 보입니다. 이를 해결하기 위해, 사실 정확성과 사건 순서 일관성을 함께 검증하는 DoveScore라는 새로운 프레임워크를 제안합니다. DoveScore는 사실 간의 관계를 모델링하여 기존 방법보다 성능이 8% 이상 향상됨을 보여줍니다.