Bài báo này đánh giá hiệu suất của các mô hình ngôn ngữ quy mô lớn (LLM) trong lĩnh vực khai thác đối số (AM) bằng cách sử dụng nhiều tập dữ liệu khác nhau (Args.me, UKP, v.v.). Bằng cách so sánh và phân tích một số LLM như GPT, Llama và DeepSeek và các biến thể tăng cường suy luận sử dụng thuật toán Chain-of-Thoughts, chúng tôi thấy rằng ChatGPT-4o cho thấy hiệu suất tốt nhất trong các điểm chuẩn phân loại đối số chung và Deepseek-R1 cho thấy hiệu suất tốt nhất trong số các mô hình có thêm hàm suy luận. Tuy nhiên, ngay cả những mô hình có hiệu suất tốt nhất cũng mắc lỗi và chúng tôi đã phân tích các loại lỗi đó và đề xuất các hướng cải tiến trong tương lai. Ngoài ra, chúng tôi đã chỉ ra __T43233__ của thuật toán nhắc hiện có và trình bày một phân tích chuyên sâu về những thiếu sót của tập dữ liệu đối số được sử dụng. Nghiên cứu này được đánh giá là phân tích mở rộng đầu tiên về các tập dữ liệu Args.me và UKP sử dụng thuật toán LLM và nhắc.