본 논문은 대규모 언어 모델(LLM)이 근거 기반 사실 검증 시스템을 회피하기 위해 반박된 주장을 재작성하는 문제를 다룹니다. 기존의 공격 성공률(ASR)은 재작성된 주장이 원래의 잘못된 명제를 약화시키거나 변경하는 경우에도 공격 성공으로 간주될 수 있어 과대평가될 수 있습니다. 이를 해결하기 위해, 본 논문은 주장을 SROM(Subject-Relation-Object-Modifier) 원자 단위로 표현하고, 유효한 회피와 명제 변경을 구분하는 '유효성 보존 게이트'를 도입하여 '유효성 인식 공격 성공률(VASR)'을 제안합니다.
🔑 시사점 및 한계
•
LLM 기반의 적대적 주장 재작성이 기존 평가 방식에서 과대평가될 수 있음을 명확히 하고, 이를 보완할 수 있는 새로운 평가 지표(VASR)를 제시합니다.
•
제안된 AtomEval은 주장 재작성의 두 가지 중요한 측면, 즉 검증 시스템 회피와 원래 명제의 진실성 유지 여부를 분리하여 분석함으로써 더 정확하고 설명 가능한 평가를 가능하게 합니다.
•
논문에서 제시된 SROM 원자 표현 및 유효성 보존 게이트의 실제 적용 범위와 복잡한 주장 구조에서의 확장 가능성에 대한 추가 연구가 필요할 수 있습니다.