Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LIFEBench: Evaluating Length Instruction Following in Large Language Models

Created by
  • Haebom

저자

Wei Zhang, Zhenhong Zhou, Junfeng Fang, Rongwu Xu, Kun Wang, Yuanhe Zhang, Rui Wang, Ge Zhang, Xinfeng Li, Li Sun, Lingjuan Lyu, Yang Liu, Sen Su

개요

본 논문은 대규모 언어 모델(LLM)의 길이 지시 사항 준수 능력을 평가하기 위한 새로운 벤치마크인 LIFEBench를 제시합니다. 기존 벤치마크가 주로 생성물의 질에 초점을 맞춘 것과 달리, LIFEBench는 다양한 작업과 넓은 범위의 길이 제약 조건(16단어부터 8192단어까지)에 걸쳐 LLM이 길이 지시 사항을 얼마나 잘 따르는지 포괄적으로 평가합니다. 영어와 중국어로 10,800개의 인스턴스를 포함하며, 26개의 널리 사용되는 LLM을 평가한 결과, 대부분의 모델은 짧은 길이 지시 사항은 잘 따르지만, 특정 임계값을 넘어서면 성능이 급격히 저하되는 것을 확인했습니다. 놀랍게도 거의 모든 모델이 제조업체가 주장하는 최대 출력 길이에 도달하지 못했으며, 32K 단어까지 확장된 평가에서도 이를 확인했습니다. 긴 컨텍스트 LLM조차도 길이 지시 사항 준수 능력이 향상되지 않았습니다. 반면 추론 LLM은 전문적인 장문 생성 모델보다 더 나은 성능을 보였습니다. 결론적으로 LIFEBench는 현재 LLM의 길이 지시 사항 준수 능력의 근본적인 한계를 밝히고, 향후 발전을 위한 중요한 통찰력을 제공합니다.

시사점, 한계점

시사점:
LLM의 길이 지시 사항 준수 능력에 대한 포괄적인 평가를 위한 새로운 벤치마크 LIFEBench 제시.
대부분의 LLM이 긴 길이 지시 사항을 제대로 따르지 못하는 현실적인 문제점을 제기.
제조업체 주장과 실제 성능 간의 차이를 밝힘.
추론 LLM이 장문 생성 모델보다 길이 지시 사항 준수 능력이 우수함을 발견.
향후 LLM 개발 방향에 대한 중요한 시사점 제공.
한계점:
LIFEBench의 평가 범위가 특정 길이와 작업 유형으로 제한될 수 있음.
평가에 사용된 LLM의 종류 및 버전이 제한적일 수 있음.
길이 지시 사항 준수 능력 저하의 원인에 대한 심층적인 분석 부족.
다른 언어로의 확장성에 대한 추가 연구 필요.
👍