본 논문은 대규모 언어 모델(LLM)을 이용한 논증 마이닝(AM) 연구를 다룬다. 논증 마이닝은 논리, 철학, 언어학, 수사학, 법학, 심리학, 컴퓨터 과학 등 다학제적 연구 분야로, 논증 구성 요소(전제, 주장 등)의 자동 식별 및 추출과 그들 간의 관계(지지, 공격, 중립 등) 검출을 포함한다. 본 연구는 Args.me와 UKP와 같은 다양한 데이터셋을 사용하여 GPT, Llama, DeepSeek 등 여러 LLM 버전(Chain-of-Thoughts 알고리즘이 적용된 추론 강화 변형 포함)의 성능을 평가한다. 실험 결과, ChatGPT-4o가 논증 분류 벤치마크에서 가장 우수한 성능을 보였고, 추론 기능이 추가된 모델 중에서는 DeepSeek-R1이 가장 뛰어났다. 하지만, 최고 성능 모델조차 오류를 범했으며, 각 모델의 주요 오류 유형을 분석하고, 기존 프롬프트 알고리즘의 약점과 개선 방향을 제시한다. 또한, 사용 가능한 논증 데이터셋의 분석을 통해 그 한계점을 보여준다. 본 연구는 LLM과 프롬프트 알고리즘을 이용한 해당 데이터셋에 대한 첫 번째 광범위한 분석으로 평가된다.