Sign In

CodeAlignBench: Assessing Code Generation Models on Developer-Preferred Code Adjustments

Created by
  • Haebom
Category
Empty

저자

Forough Mehralian, Ryan Shar, James R. Rae, Alireza Hashemi

개요

본 논문은 대규모 언어 모델(LLM)의 코드 생성 능력을 평가하는 새로운 다중 언어 벤치마크를 제시합니다. 기존 벤치마크가 기능적 정확성에 초점을 맞춘 반면, 이 벤치마크는 다양한 실제 코딩 작업과 개발자 기대를 고려하여 LLM의 지시 따르기 능력을 평가합니다. LiveBench의 프로그래밍 작업을 기반으로 Python, Java, JavaScript에서 벤치마크를 수행하여 모델의 성능을 측정하고, 지시 준수 및 후속 지침 기반 개선 능력을 평가합니다.

시사점, 한계점

LLM의 지시 따르기 능력을 다양한 언어와 생성 목표에 걸쳐 포괄적으로 평가하는 벤치마크 제공
초기 문제에 명시된 제약 조건 준수 및 후속 지침 기반 개선 능력 평가
LiveBench를 활용하여 Python, Java, JavaScript에서 자동화된 벤치마크 파이프라인 구축
모델별 성능 차이를 보여주는 결과를 통해 강점과 약점 분석 가능
본 연구는 특정 모델 및 벤치마크 데이터에 국한될 수 있으며, 벤치마크 자체의 확장성 및 현실적인 코딩 문제 반영 정도에 대한 추가적인 연구가 필요함.
👍