본 논문은 자동화된 담화 분석, 특히 정치적 논쟁, 온라인 토론, 과학적 추론과 같은 맥락에서 논증을 식별하는 것이 필수적이라는 점을 바탕으로, 최첨단 BERT 기반 변환기 모델들의 논증 식별 능력에 대한 대규모 재평가를 최초로 수행합니다. 17개의 영어 문장 수준 데이터셋을 사용하여 세 가지 표준 변환기 모델과 대조적 사전 훈련을 통해 일반화 능력을 향상시킨 한 가지 모델을 평가합니다. 연구 결과, 이러한 모델들이 내용어에 묶인 어휘적 지름길에 의존하는 경향이 있음을 보여주며, 명백한 진전이 실제 과제 정합성보다는 데이터셋 특유의 단서에 의해 주도될 수 있음을 시사합니다. 익숙한 벤치마크에서는 강력한 결과를 달성하지만, 보이지 않는 데이터셋에 적용하면 성능이 현저히 저하됩니다. 그러나 과제 특유의 사전 훈련과 공동 벤치마크 훈련을 통합하면 강건성과 일반화 능력을 향상시키는 데 효과적임을 보여줍니다.