Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LLLMs: A Data-Driven Survey of Evolving Research on Limitations of Large Language Models

Created by
  • Haebom

저자

Aida Kostikova, Zhipin Wang, Deidamea Bajri, Ole Putz, Benjamin Paa{\ss}en, Steffen Eger

개요

본 논문은 2022년부터 2025년까지의 ACL과 arXiv 논문 25만 건을 대상으로, 대규모 언어 모델(LLM)의 한계에 대한 연구 동향을 데이터 기반의 준자동화 방식으로 분석한 설문 조사 결과를 제시합니다. 키워드 필터링 및 LLM 기반 분류를 통해 14,648건의 관련 논문을 추출하고, HDBSCAN+BERTopic 및 LlooM을 이용한 토픽 클러스터링을 통해 7~15가지 주요 LLM 한계 유형을 도출했습니다. 분석 결과, LLM 관련 연구는 2022년부터 2025년까지 ACL에서 6배, arXiv에서 15배 가까이 증가했으며, LLM 한계(LLLMs) 연구는 그보다 더 빠르게 증가했습니다. 가장 많이 연구된 한계는 추론이며, 일반화, 환각, 편향, 보안이 그 뒤를 이었습니다. ACL 데이터셋의 토픽 분포는 시간이 지남에 따라 비교적 안정적인 반면, arXiv 데이터셋은 2022년부터 2025년 사이에 안전성 및 제어 가능성(보안 위험, 정렬, 환각, 지식 편집 등), 그리고 다중 모달리티 쪽으로 이동하는 경향을 보였습니다. 본 논문은 주석이 달린 초록 데이터셋과 검증된 방법론을 https://github.com/a-kostikova/LLLMs-Survey 에서 공개합니다.

시사점, 한계점

시사점:
LLM의 한계에 대한 연구가 급증하고 있으며, 특히 안전성 및 제어 가능성, 다중 모달리티에 대한 연구가 활발해지고 있음을 정량적으로 보여줌.
추론, 일반화, 환각, 편향, 보안 등 주요 LLM 한계에 대한 연구 동향 파악 및 분석 가능.
데이터셋과 방법론 공개를 통해 후속 연구에 기여.
한계점:
키워드 필터링 및 LLM 기반 분류에 의존하여, 일부 관련 논문이 누락되었을 가능성.
토픽 클러스터링 결과의 해석에 주관성이 개입될 수 있음.
분석 대상 기간이 2022년부터 2025년으로 제한됨.
ACL과 arXiv 데이터셋에 편향이 존재할 가능성.
👍