Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Un estudio exhaustivo de la clasificación de argumentos basada en LLM: desde LLAMA pasando por GPT-4o hasta Deepseek-R1

Created by
  • Haebom

Autor

Marcin Pietro n, Rafa{\l} Olszowski, Jakub Gomu{\l}ka, Filip Gampel, Andrzej Tomski

Describir

Este artículo evalúa el rendimiento de los modelos de lenguaje a gran escala (LLM) en el campo de la minería de argumentos (AM) utilizando varios conjuntos de datos (Args.me, UKP, etc.). Al comparar y analizar varios LLM como GPT, Llama y DeepSeek y variantes mejoradas por inferencia que aplican algoritmos de cadena de pensamientos, ChatGPT-4o mostró el mejor rendimiento en los puntos de referencia generales de clasificación de argumentos, y Deepseek-R1 mostró el mejor rendimiento entre los modelos con funciones de inferencia agregadas. Sin embargo, incluso los modelos de mejor rendimiento cometieron errores, y analizamos los tipos de dichos errores y sugerimos futuras direcciones de mejora. Además, señalamos __T9097__ del algoritmo de solicitud existente y presentamos un análisis en profundidad de las deficiencias del conjunto de datos de argumentos utilizado. Este estudio se evalúa como el primer análisis extenso de los conjuntos de datos Args.me y UKP utilizando algoritmos LLM y de solicitud.

Takeaways, Limitations

Takeaways:
Confirmamos la superioridad de ChatGPT-4o y Deepseek-R1 a través del análisis comparativo del rendimiento de minería de argumentos utilizando varios algoritmos LLM y de solicitud.
Se presentaron claramente el estado actual y las limitaciones de la minería de argumentos basada en LLM, sugiriendo futuras direcciones de investigación.
El análisis de los conjuntos de datos Args.me y UKP sugiere direcciones para mejorar los propios conjuntos de datos.
Revelamos el Limitations del algoritmo de indicaciones existente y sugerimos una dirección para mejorarlo.
Limitations:
Los tipos de LLM y conjuntos de datos utilizados en el análisis pueden ser limitados.
El análisis de los tipos de errores de LLM necesita ser más profundo.
Falta verificación experimental de las direcciones de mejora propuestas.
👍