LIFEBench: Evaluating Length Instruction Following in Large Language Models
Created by
Haebom
저자
Wei Zhang, Zhenhong Zhou, Kun Wang, Junfeng Fang, Yuanhe Zhang, Rui Wang, Ge Zhang, Xavier Li, Li Sun, Lingjuan Lyu, Yang Liu, Sen Su
개요
본 논문은 대규모 언어 모델(LLM)의 길이 지시사항 준수 능력을 평가하기 위한 새로운 벤치마크인 LIFEBench를 제안합니다. LIFEBench는 다양한 작업과 16단어부터 8192단어까지의 폭넓은 길이 제약 조건을 포함하는 10,800개의 인스턴스로 구성되어 있으며, 영어와 중국어를 모두 지원합니다. 26개의 널리 사용되는 LLM을 평가한 결과, 대부분의 모델은 짧은 길이 지시사항은 잘 따르지만 특정 임계값을 넘어서면 성능이 크게 저하되는 것으로 나타났습니다. 놀랍게도 거의 모든 모델이 제조업체가 주장하는 최대 출력 길이에 도달하지 못했으며, 32K 단어까지 확장된 평가에서도 이러한 결과가 확인되었습니다. 긴 맥락을 처리하는 LLM조차도 길이 지시사항 준수 능력이 향상되지 않았습니다. 흥미롭게도 추론 LLM이 전문적인 장문 생성 모델보다 더 나은 길이 지시사항 준수 성능을 보였습니다. LIFEBench는 현재 LLM의 길이 지시사항 준수 능력의 근본적인 한계를 밝혀내어 향후 발전을 위한 중요한 통찰력을 제공합니다.
시사점, 한계점
•
시사점:
◦
LLM의 길이 지시사항 준수 능력에 대한 종합적인 평가를 위한 새로운 벤치마크인 LIFEBench 제시.
◦
대부분의 LLM이 긴 길이 지시사항을 제대로 따르지 못하며, 특정 길이 임계값을 넘어서면 성능이 급격히 저하됨을 밝힘.