LIFEBench: Evaluating Length Instruction Following in Large Language Models
Created by
Haebom
저자
Wei Zhang, Zhenhong Zhou, Junfeng Fang, Rongwu Xu, Kun Wang, Yuanhe Zhang, Rui Wang, Ge Zhang, Xinfeng Li, Li Sun, Lingjuan Lyu, Yang Liu, Sen Su
개요
본 논문은 대규모 언어 모델(LLM)의 길이 지시 사항 준수 능력을 평가하기 위한 새로운 벤치마크인 LIFEBench를 제시합니다. 기존 벤치마크가 주로 생성물의 질에 초점을 맞춘 것과 달리, LIFEBench는 다양한 작업과 넓은 범위의 길이 제약 조건(16단어부터 8192단어까지)에 걸쳐 LLM이 길이 지시 사항을 얼마나 잘 따르는지 포괄적으로 평가합니다. 영어와 중국어로 10,800개의 인스턴스를 포함하며, 26개의 널리 사용되는 LLM을 평가한 결과, 대부분의 모델은 짧은 길이 지시 사항은 잘 따르지만, 특정 임계값을 넘어서면 성능이 급격히 저하되는 것을 확인했습니다. 놀랍게도 거의 모든 모델이 제조업체가 주장하는 최대 출력 길이에 도달하지 못했으며, 32K 단어까지 확장된 평가에서도 이를 확인했습니다. 긴 컨텍스트 LLM조차도 길이 지시 사항 준수 능력이 향상되지 않았습니다. 반면 추론 LLM은 전문적인 장문 생성 모델보다 더 나은 성능을 보였습니다. 결론적으로 LIFEBench는 현재 LLM의 길이 지시 사항 준수 능력의 근본적인 한계를 밝히고, 향후 발전을 위한 중요한 통찰력을 제공합니다.
시사점, 한계점
•
시사점:
◦
LLM의 길이 지시 사항 준수 능력에 대한 포괄적인 평가를 위한 새로운 벤치마크 LIFEBench 제시.