Large Language Model Psychometrics: A Systematic Review of Evaluation, Validation, and Enhancement
Created by
Haebom
저자
Haoran Ye, Jing Jin, Yuhang Xie, Xin Zhang, Guojie Song
개요
본 논문은 대규모 언어 모델(LLM)의 발전 속도가 기존 평가 방법론을 능가함에 따라 발생하는 새로운 과제들을 다룹니다. 특히, 인간과 유사한 심리적 구성 요소 측정, 정적이고 과제 특정 벤치마크를 넘어서는 평가, 그리고 인간 중심적 평가 확립 등의 문제점을 제기합니다. 이러한 과제들은 성격, 가치관, 지능 등 인간 심리의 무형적 측면을 정량화하는 과학인 심리측정학과 밀접하게 관련되어 있습니다. 본 논문은 심리측정 도구, 이론 및 원리를 활용하여 LLM을 평가하고 이해하며 향상시키는 신흥 학제 간 분야인 LLM 심리측정학을 소개하고 종합적으로 분석합니다. 리뷰된 문헌을 통해 벤치마킹 원칙을 체계화하고, 평가 범위를 확장하며, 방법론을 개선하고, 결과를 검증하며, LLM 기능을 발전시키는 방안을 제시합니다. 다양한 관점을 통합하여 연구자들에게 구조화된 프레임워크를 제공함으로써 이 신생 분야에 대한 포괄적인 이해를 가능하게 합니다. 궁극적으로, 인간 수준의 AI와 부합하는 미래 평가 패러다임을 개발하고 사회적 이익을 위한 인간 중심 AI 시스템의 발전을 촉진하기 위한 실행 가능한 통찰력을 제공합니다. LLM 심리측정 자원의 큐레이션 저장소는 https://github.com/valuebyte-ai/Awesome-LLM-Psychometrics 에서 이용 가능합니다.