Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

A comprehensive study of LLM-based argument classification: from LLAMA through GPT-4o to Deepseek-R1

Created by
  • Haebom

저자

Marcin Pietron, Rafa{\l} Olszowski, Jakub Gomu{\l}ka, Filip Gampel, Andrzej Tomski

개요

본 논문은 대규모 언어 모델(LLM)을 이용한 논증 마이닝(AM) 연구를 다룬다. 논증 마이닝은 논리, 철학, 언어학, 수사학, 법학, 심리학, 컴퓨터 과학 등 다학제적 연구 분야로, 논증 구성 요소(전제, 주장 등)의 자동 식별 및 추출과 그들 간의 관계(지지, 공격, 중립 등) 검출을 포함한다. 본 연구는 Args.me와 UKP와 같은 다양한 데이터셋을 사용하여 GPT, Llama, DeepSeek 등 여러 LLM 버전(Chain-of-Thoughts 알고리즘이 적용된 추론 강화 변형 포함)의 성능을 평가한다. 실험 결과, ChatGPT-4o가 논증 분류 벤치마크에서 가장 우수한 성능을 보였고, 추론 기능이 추가된 모델 중에서는 DeepSeek-R1이 가장 뛰어났다. 하지만, 최고 성능 모델조차 오류를 범했으며, 각 모델의 주요 오류 유형을 분석하고, 기존 프롬프트 알고리즘의 약점과 개선 방향을 제시한다. 또한, 사용 가능한 논증 데이터셋의 분석을 통해 그 한계점을 보여준다. 본 연구는 LLM과 프롬프트 알고리즘을 이용한 해당 데이터셋에 대한 첫 번째 광범위한 분석으로 평가된다.

시사점, 한계점

시사점:
다양한 LLM의 논증 분류 성능 비교 분석을 통해 ChatGPT-4o와 DeepSeek-R1의 우수성을 확인.
Chain-of-Thoughts 알고리즘 등 추론 강화 기법의 효과성 검증.
Args.me와 UKP 데이터셋의 장단점 분석 및 향후 개선 방향 제시.
LLM 기반 논증 마이닝의 가능성과 한계를 제시.
기존 프롬프트 알고리즘의 약점과 개선 방향 제시.
한계점:
분석에 사용된 LLM 및 데이터셋의 종류가 제한적일 수 있음.
최고 성능 모델조차 오류를 범함. 오류 유형 분석이 필요.
더욱 다양하고 복잡한 논증 구조에 대한 성능 평가가 필요.
실제 응용 분야에서의 적용 가능성에 대한 추가 연구 필요.
👍