Sign In

HiBench: Benchmarking LLMs Capability on Hierarchical Structure Reasoning

Created by
  • Haebom
Category
Empty

저자

Zhuohang Jiang, Pangjing Wu, Ziran Liang, Peter Q. Chen, Xu Yuan, Ye Jia, Jiancheng Tu, Chen Li, Peter H. F. Ng, Qing Li

개요

본 논문은 대규모 언어 모델(LLM)의 계층적 구조 추론 능력을 체계적으로 평가하기 위한 새로운 벤치마크인 HiBench를 제안합니다. 기존 벤치마크가 주로 수평적 구조에 초점을 맞춘 것과 달리, HiBench는 계층적 관계를 고려하여 인간의 인지 능력과 다양한 실제 작업에 중요한 계층적 구조 추론 능력을 평가합니다. HiBench는 6가지 대표적인 시나리오와 30가지의 다양한 복잡도를 가진 과제(총 39,519개의 질의)로 구성되며, 5가지 능력 차원을 통해 LLM의 계층적 구조 이해 능력을 다각적으로 평가합니다. 10개 모델 계열의 20개 LLM을 평가한 결과, 기존 LLM은 기본적인 계층적 추론 과제에서는 능숙하지만, 복잡한 구조나 암시적인 계층적 표현에는 어려움을 겪는다는 것을 밝혔습니다. 이러한 결과를 바탕으로, LLM의 성능을 향상시키는 작지만 잘 설계된 지시 데이터셋을 만들었습니다. HiBench 데이터셋과 툴킷은 공개적으로 제공됩니다.

시사점, 한계점

시사점:
계층적 구조 추론 능력을 체계적으로 평가하는 새로운 벤치마크 HiBench 제시
기존 LLM의 계층적 구조 추론 능력에 대한 심층적인 분석 결과 제공 (기본적인 과제에는 능숙하지만 복잡한 과제에는 어려움)
LLM의 성능 향상을 위한 효과적인 지시 데이터셋 개발 및 공개
LLM의 계층적 구조 이해 능력의 다양한 측면을 포착하는 5가지 능력 차원 제시
한계점:
HiBench가 아직 초기 단계의 벤치마크이므로, 더욱 다양하고 복잡한 시나리오 및 과제 추가가 필요할 수 있음
평가에 사용된 LLM의 종류 및 버전이 제한적일 수 있음. 더욱 광범위한 모델들을 대상으로 평가가 필요할 수 있음
개발된 지시 데이터셋의 일반화 성능에 대한 추가적인 연구가 필요할 수 있음
👍