Sign In

CS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery

Created by
  • Haebom
Category
Empty

저자

Xiaoshuai Song, Muxi Diao, Guanting Dong, Zhengyang Wang, Yujia Fu, Runqi Qiao, Zhexu Wang, Dayuan Fu, Huangxuan Wu, Bin Liang, Weihao Zeng, Yejie Wang, Zhuoma GongQue, Jianing Yu, Qiuna Tan, Weiran Xu

개요

본 논문은 컴퓨터 과학 분야에서 대규모 언어 모델(LLM)의 성능을 종합적으로 평가하기 위한 다국어 벤치마크인 CS-Bench를 제시합니다. CS-Bench는 4개의 주요 컴퓨터 과학 분야에 걸쳐 26개의 하위 분야를 다루는 약 1만 개의 주의 깊게 선별된 테스트 샘플로 구성됩니다. 논문에서는 CS-Bench를 사용하여 30개 이상의 주요 LLM을 종합적으로 평가하고, 컴퓨터 과학 성능과 모델 규모 간의 관계를 밝힙니다. 또한 기존 LLM의 실패 원인을 정량적으로 분석하고, 지식 보충 및 컴퓨터 과학 특유의 추론 등 개선 방향을 제시합니다. 마지막으로, 컴퓨터 과학, 수학, 코딩 능력 간의 상관관계를 분석하고, 수학 및 코딩 전문 LLM의 컴퓨터 과학 하위 분야 성능을 평가합니다. CS-Bench 데이터 및 평가 코드는 공개적으로 제공됩니다.

시사점, 한계점

시사점:
컴퓨터 과학 분야에서 LLM의 성능을 종합적으로 평가할 수 있는 새로운 벤치마크 CS-Bench를 제시.
다양한 LLM의 컴퓨터 과학 성능과 모델 규모 간의 관계를 정량적으로 분석.
LLM의 실패 원인 분석을 통해 향후 개선 방향 제시 (지식 보충 및 컴퓨터 과학 특유의 추론).
컴퓨터 과학, 수학, 코딩 능력 간의 높은 상관관계 확인.
수학 및 코딩 전문 LLM의 우수한 컴퓨터 과학 성능 확인.
CS-Bench는 LLM의 컴퓨터 과학 분야 응용 및 다양한 추론 능력 평가에 기여할 것으로 기대.
한계점:
본 논문에서는 CS-Bench의 한계점에 대한 명시적인 언급이 없습니다. 향후 연구에서 CS-Bench의 한계점 및 개선 방향에 대한 논의가 필요할 것으로 예상됩니다. (예: 벤치마크의 포괄성, 편향성, 특정 분야의 과소대표 등)
👍