Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LLLMs: A Data-Driven Survey of Evolving Research on Limitations of Large Language Models

Created by
  • Haebom

저자

Aida Kostikova, Zhipin Wang, Deidamea Bajri, Ole Putz, Benjamin Paa{\ss}en, Steffen Eger

개요

본 논문은 2022년부터 2024년까지의 ACL 및 arXiv 논문 25만 건을 대상으로, 대규모 언어 모델(LLM)의 한계점에 대한 연구 동향을 데이터 기반의 반자동화 방식으로 분석한 설문 조사 연구입니다. 키워드 필터링, LLM 기반 분류, 전문가 검증, 토픽 클러스터링(HDBSCAN+BERTopic 및 LlooM 사용)을 통해 14,648건의 관련 논문을 식별했습니다. 분석 결과, LLM 관련 연구는 ACL에서 5배 이상, arXiv에서 4배 이상 증가했으며, 특히 2022년 이후 LLM의 한계점을 다룬 연구는 급증하여 2024년 말에는 LLM 논문의 30%를 넘어섰습니다. 연구된 한계점 중 추론이 가장 많이 연구되었고, 일반화, 환각, 편향, 보안이 그 뒤를 이었습니다. ACL 데이터셋의 주제 분포는 시간에 따라 비교적 안정적인 반면, arXiv는 2022년부터 2024년 사이에 안전성 및 제어 가능성(보안 위험, 정렬, 환각, 지식 편집 등), 그리고 다중 모달리티 쪽으로 이동하는 경향을 보였습니다. 본 논문은 주석이 달린 초록 데이터셋과 검증된 방법론을 공개하며, LLM 한계점 연구의 동향에 대한 정량적 관점을 제공합니다.

시사점, 한계점

시사점:
2022년 이후 LLM의 한계점에 대한 연구가 급증하고 있으며, 특히 안전성 및 제어 가능성, 다중 모달리티에 대한 연구가 활발해지고 있음을 정량적으로 보여줌.
LLM의 한계점 연구에서 추론, 일반화, 환각, 편향, 보안이 주요 연구 분야임을 확인.
ACL과 arXiv 데이터셋 간 연구 주제의 시간적 변화 추이를 비교 분석하여 플랫폼별 연구 방향의 차이를 제시.
주석이 달린 초록 데이터셋과 검증된 방법론을 공개하여 후속 연구에 기여.
한계점:
키워드 필터링 및 LLM 기반 분류에 의존하는 방법론의 한계로 인해 일부 관련 논문이 누락될 가능성 존재.
분석 대상 기간이 2024년까지로 제한되어 최신 동향을 완전히 반영하지 못할 수 있음.
토픽 클러스터링 결과의 주관적인 해석 가능성.
ACL과 arXiv 데이터셋에 편향이 존재할 가능성.
👍