Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Large Language Models Could Be Rote Learners

Created by
  • Haebom

저자

Yuyang Xu, Renjun Hu, Haochao Ying, Jian Wu, Xing Shi, Wei Lin

개요

본 논문은 대규모 언어 모델(LLM) 평가에 널리 사용되는 객관식 문제(MCQ) 벤치마크의 신뢰성 저하 문제, 즉 벤치마크 오염 문제를 다룹니다. 연구는 오염을 학습의 본질적인 측면으로 재구성하여 LLM 평가에서 진정한 능력 습득과 표면적인 암기의 구분을 시도합니다. 다양한 암기 조건 하에서 모델 성능을 분석하여, LLM이 암기된 MCQ보다 암기되지 않은 MCQ에서 더 나쁜 성능을 보이는 역설적인 경향을 발견합니다. 이는 암기와 진정한 능력 학습이라는 두 가지 구별되는 학습 현상이 공존함을 시사합니다. 이를 해결하기 위해, 암기를 줄이면서 지식 평가는 유지하는 대체 삼위일체 형식으로 MCQ를 재구성하는 새로운 평가 프레임워크인 TrinEval을 제안합니다. 실험을 통해 TrinEval의 재구성 효과를 검증하고, 일반적인 LLM이 평균 20.5%(MMLU 기준)의 지식 포인트를 암기한다는 것을 밝힙니다.

시사점, 한계점

시사점:
LLM 평가에서 암기와 진정한 능력 학습을 구분하는 것이 중요함을 강조.
기존 MCQ 벤치마크의 신뢰성 문제를 해결하기 위한 새로운 평가 프레임워크 TrinEval 제시.
LLM의 암기 비율을 정량적으로 측정하고, 그 수준을 제시 (평균 20.5% in MMLU).
한계점:
TrinEval의 일반화 성능 및 다양한 LLM 및 벤치마크에 대한 적용 가능성에 대한 추가 연구 필요.
암기와 진정한 이해를 완벽히 구분하는 것이 어려울 수 있으며, TrinEval이 이를 완벽히 해결한다고 단정할 수 없음.
MMLU 데이터셋에 국한된 결과이므로, 다른 데이터셋에 대한 일반화 가능성 검증 필요.
👍