Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

An In-depth Evaluation of Large Language Models in Sentence Simplification with Error-based Human Assessment

Created by
  • Haebom

저자

Xuanxin Wu, Yuki Arase

개요

본 논문은 대규모 언어 모델(LLM)의 문장 간소화 능력 평가에 대한 기존 방법론의 한계를 지적하고, 이를 개선하기 위한 새로운 평가 프레임워크를 제시한다. 기존의 자동 평가 지표는 LLM의 간소화 능력 평가에 적합하지 않으며, 기존의 사람에 의한 평가는 지나치게 단순하거나 복잡하여 신뢰성이 떨어진다는 문제점을 지적한다. 따라서 오류 기반의 사람에 의한 주석 프레임워크를 설계하여 GPT-4, Qwen2.5-72B, Llama-3.2-3B 등 다양한 크기의 LLM을 평가하고, 자동 평가 지표에 대한 메타 평가를 수행한다. 결과적으로 GPT-4가 기존 최고 성능 모델보다 오류가 적지만, 어휘적 바꿔쓰기에는 어려움을 겪는 등 LLM의 한계를 보여준다. 또한 기존의 자동 평가 지표는 특히 고성능 LLM이 생성한 고품질 간소화에 대한 민감도가 부족함을 밝힌다.

시사점, 한계점

시사점:
LLM의 문장 간소화 능력 평가를 위한 새로운 오류 기반 사람 주석 프레임워크 제시
GPT-4를 포함한 다양한 크기의 LLM에 대한 문장 간소화 능력 비교 분석 결과 제시
기존 자동 평가 지표의 한계를 밝히고 개선 방향 제시
고성능 LLM의 경우 어휘적 바꿔쓰기 등 특정 영역에서의 어려움을 발견
한계점:
제시된 오류 기반 주석 프레임워크의 일반화 가능성에 대한 추가 연구 필요
평가에 사용된 LLM의 종류 및 수 제한
자동 평가 지표의 개선 방안에 대한 구체적인 제시 부족
👍