본 논문은 문서 수준의 주장 추출의 평가 방법을 연구합니다. 특히, 동일한 소스 문서에서 추출된 두 개의 주장 집합 간의 정렬 및 유사성을 계산하는 접근 방식을 탐구합니다. 모델이 추출한 주장과 사람이 주석을 단 주장을 비교하여 모델의 추출 성능을 평가하고, 주석자 간의 일치도를 측정하는 프레임워크를 제공합니다. 체코어 및 슬로바키어 뉴스 기사 댓글에서 추출한 주장으로 구성된 새로운 데이터셋을 사용하여 실험을 수행하며, 비형식적인 언어, 강한 지역적 문맥, 미묘한 언어적 차이로 인해 추가적인 어려움이 있는 도메인을 다룹니다.