Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

A comprehensive study of LLM-based argument classification: from LLAMA through GPT-4o to Deepseek-R1

Created by
  • Haebom

저자

Marcin Pietron, Rafa{\l} Olszowski, Jakub Gomu{\l}ka, Filip Gampel, Andrzej Tomski

개요

본 논문은 논증 마이닝(Argument Mining, AM) 분야에서 대규모 언어 모델(LLM)의 성능을 다양한 데이터셋(Args.me, UKP 등)을 사용하여 평가한 연구이다. GPT, Llama, DeepSeek 등 여러 LLM과 Chain-of-Thoughts 알고리즘을 적용한 추론 강화 변형 모델들을 비교 분석하여, ChatGPT-4o가 일반적인 argument classification benchmark에서 가장 우수한 성능을 보였고, 추론 기능이 추가된 모델 중에서는 Deepseek-R1이 가장 뛰어났음을 밝혔다. 하지만 최고 성능의 모델들조차 오류를 범했으며, 그러한 오류의 유형을 분석하고 향후 개선 방향을 제시하였다. 또한 기존 prompt 알고리즘의 한계점을 지적하고, 사용된 argument 데이터셋의 단점을 심층 분석하여 제시하였다. 본 연구는 LLM과 prompt 알고리즘을 이용한 Args.me 및 UKP 데이터셋에 대한 최초의 광범위한 분석으로 평가된다.

시사점, 한계점

시사점:
다양한 LLM과 prompt 알고리즘을 이용한 논증 마이닝 성능 비교 분석을 통해 ChatGPT-4o와 Deepseek-R1의 우수성을 확인하였다.
LLM 기반 논증 마이닝의 현황과 한계를 명확히 제시하여 향후 연구 방향을 제시하였다.
Args.me 및 UKP 데이터셋의 분석을 통해 데이터셋 자체의 개선 방향을 제시하였다.
기존 prompt 알고리즘의 한계점을 밝히고 개선 방향을 제시하였다.
한계점:
분석에 사용된 LLM과 데이터셋의 종류가 제한적일 수 있다.
LLM의 오류 유형 분석이 더욱 심층적일 필요가 있다.
제시된 개선 방향에 대한 실험적 검증이 부족하다.
👍