LLM-as-an-Interviewer: Beyond Static Testing Through Dynamic LLM Evaluation
Created by
Haebom
저자
Eunsu Kim, Juyoung Suk, Seungone Kim, Niklas Muennighoff, Dongkwan Kim, Alice Oh
개요
본 논문은 대규모 언어 모델(LLM) 평가를 위한 새로운 패러다임인 "면접관으로서의 LLM"을 제시합니다. 이 접근 방식은 LLM 면접관이 응답에 대한 피드백을 적극적으로 제공하고 평가 대상 LLM에 후속 질문을 하는 다회차 상호 작용을 활용합니다. 면접 시작 시, LLM 면접관은 데이터 세트를 동적으로 수정하여 초기 질문을 생성하여 데이터 오염을 완화합니다. 본 연구는 MATH 및 DepthQA 작업에서 6개의 모델을 평가하기 위해 "면접관으로서의 LLM" 프레임워크를 적용했습니다. 결과는 이 프레임워크가 초기 응답의 질, 피드백에 대한 적응성, 명확화 또는 추가 지식 요청과 같은 후속 질문에 대한 처리 능력을 포함하여 LLM 성능에 대한 통찰력을 효과적으로 제공함을 보여줍니다. 또한, 이 프레임워크는 과도한 정보에 대한 편향 및 실행 간의 불일치를 포함하여 기존의 LLM-as-a-Judge와 같은 방법의 주요 한계를 해결합니다. 마지막으로, 면접 과정에서 얻은 통찰력을 종합하여 LLM의 강점과 약점에 대한 예시와 종합적인 분석을 제공하는 면접 보고서를 제안합니다. 이 보고서는 모델의 실제 적용 가능성에 대한 자세한 스냅샷을 제공합니다. 해당 프레임워크 코드는 https://github.com/interview-eval/ 에서 공개적으로 이용 가능합니다.