Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LIFEBench: Evaluating Length Instruction Following in Large Language Models

Created by
  • Haebom

저자

Wei Zhang, Zhenhong Zhou, Kun Wang, Junfeng Fang, Yuanhe Zhang, Rui Wang, Ge Zhang, Xavier Li, Li Sun, Lingjuan Lyu, Yang Liu, Sen Su

개요

본 논문은 대규모 언어 모델(LLM)의 길이 지시사항 준수 능력을 평가하기 위한 새로운 벤치마크인 LIFEBench를 제안합니다. LIFEBench는 다양한 작업과 16단어부터 8192단어까지의 폭넓은 길이 제약 조건을 포함하는 10,800개의 인스턴스로 구성되어 있으며, 영어와 중국어를 모두 지원합니다. 26개의 널리 사용되는 LLM을 평가한 결과, 대부분의 모델은 짧은 길이 지시사항은 잘 따르지만 특정 임계값을 넘어서면 성능이 크게 저하되는 것으로 나타났습니다. 놀랍게도 거의 모든 모델이 제조업체가 주장하는 최대 출력 길이에 도달하지 못했으며, 32K 단어까지 확장된 평가에서도 이러한 결과가 확인되었습니다. 긴 맥락을 처리하는 LLM조차도 길이 지시사항 준수 능력이 향상되지 않았습니다. 흥미롭게도 추론 LLM이 전문적인 장문 생성 모델보다 더 나은 길이 지시사항 준수 성능을 보였습니다. LIFEBench는 현재 LLM의 길이 지시사항 준수 능력의 근본적인 한계를 밝혀내어 향후 발전을 위한 중요한 통찰력을 제공합니다.

시사점, 한계점

시사점:
LLM의 길이 지시사항 준수 능력에 대한 종합적인 평가를 위한 새로운 벤치마크인 LIFEBench 제시.
대부분의 LLM이 긴 길이 지시사항을 제대로 따르지 못하며, 특정 길이 임계값을 넘어서면 성능이 급격히 저하됨을 밝힘.
제조업체가 주장하는 최대 출력 길이에 도달하지 못하는 LLM이 대부분임을 확인.
긴 맥락 LLM이 길이 지시사항 준수 능력 향상에 기여하지 못함을 발견.
추론 LLM이 장문 생성 모델보다 길이 지시사항 준수 성능이 우수함을 보임.
향후 LLM 개발 방향에 대한 중요한 시사점 제공.
한계점:
LIFEBench의 평가 범위가 제한적일 수 있음 (특정 작업 및 길이 범위).
평가에 사용된 LLM의 종류 및 버전이 제한적일 수 있음.
길이 지시사항 준수 외 다른 요소(예: 생성 품질)에 대한 고려 부족.
👍