본 논문은 컴퓨터 과학 분야에서 대규모 언어 모델(LLM)의 성능을 종합적으로 평가하기 위한 다국어 벤치마크인 CS-Bench를 제시합니다. CS-Bench는 4개의 주요 컴퓨터 과학 분야에 걸쳐 26개의 하위 분야를 다루는 약 1만 개의 주의 깊게 선별된 테스트 샘플로 구성됩니다. 논문에서는 CS-Bench를 사용하여 30개 이상의 주요 LLM을 종합적으로 평가하고, 컴퓨터 과학 성능과 모델 규모 간의 관계를 밝힙니다. 또한 기존 LLM의 실패 원인을 정량적으로 분석하고, 지식 보충 및 컴퓨터 과학 특유의 추론 등 개선 방향을 제시합니다. 마지막으로, 컴퓨터 과학, 수학, 코딩 능력 간의 상관관계를 분석하고, 수학 및 코딩 전문 LLM의 컴퓨터 과학 하위 분야 성능을 평가합니다. CS-Bench 데이터 및 평가 코드는 공개적으로 제공됩니다.
시사점, 한계점
•
시사점:
◦
컴퓨터 과학 분야에서 LLM의 성능을 종합적으로 평가할 수 있는 새로운 벤치마크 CS-Bench를 제시.
◦
다양한 LLM의 컴퓨터 과학 성능과 모델 규모 간의 관계를 정량적으로 분석.
◦
LLM의 실패 원인 분석을 통해 향후 개선 방향 제시 (지식 보충 및 컴퓨터 과학 특유의 추론).
◦
컴퓨터 과학, 수학, 코딩 능력 간의 높은 상관관계 확인.
◦
수학 및 코딩 전문 LLM의 우수한 컴퓨터 과학 성능 확인.
◦
CS-Bench는 LLM의 컴퓨터 과학 분야 응용 및 다양한 추론 능력 평가에 기여할 것으로 기대.
•
한계점:
◦
본 논문에서는 CS-Bench의 한계점에 대한 명시적인 언급이 없습니다. 향후 연구에서 CS-Bench의 한계점 및 개선 방향에 대한 논의가 필요할 것으로 예상됩니다. (예: 벤치마크의 포괄성, 편향성, 특정 분야의 과소대표 등)