Este artículo evalúa el rendimiento de los modelos de lenguaje a gran escala (LLM) en el campo de la minería de argumentos (AM) utilizando varios conjuntos de datos (Args.me, UKP, etc.). Al comparar y analizar varios LLM como GPT, Llama y DeepSeek y variantes mejoradas por inferencia que aplican algoritmos de cadena de pensamientos, ChatGPT-4o mostró el mejor rendimiento en los puntos de referencia generales de clasificación de argumentos, y Deepseek-R1 mostró el mejor rendimiento entre los modelos con funciones de inferencia agregadas. Sin embargo, incluso los modelos de mejor rendimiento cometieron errores, y analizamos los tipos de dichos errores y sugerimos futuras direcciones de mejora. Además, señalamos __T9097__ del algoritmo de solicitud existente y presentamos un análisis en profundidad de las deficiencias del conjunto de datos de argumentos utilizado. Este estudio se evalúa como el primer análisis extenso de los conjuntos de datos Args.me y UKP utilizando algoritmos LLM y de solicitud.