본 논문은 논증 마이닝(Argument Mining, AM) 분야에서 대규모 언어 모델(LLM)의 성능을 다양한 데이터셋(Args.me, UKP 등)을 사용하여 평가한 연구이다. GPT, Llama, DeepSeek 등 여러 LLM과 Chain-of-Thoughts 알고리즘을 적용한 추론 강화 변형 모델들을 비교 분석하여, ChatGPT-4o가 일반적인 argument classification benchmark에서 가장 우수한 성능을 보였고, 추론 기능이 추가된 모델 중에서는 Deepseek-R1이 가장 뛰어났음을 밝혔다. 하지만 최고 성능의 모델들조차 오류를 범했으며, 그러한 오류의 유형을 분석하고 향후 개선 방향을 제시하였다. 또한 기존 prompt 알고리즘의 한계점을 지적하고, 사용된 argument 데이터셋의 단점을 심층 분석하여 제시하였다. 본 연구는 LLM과 prompt 알고리즘을 이용한 Args.me 및 UKP 데이터셋에 대한 최초의 광범위한 분석으로 평가된다.