본 논문은 기존 연구에서 소규모 모델에서 효과가 입증된 문법 기반 코드 표현이 수십억 파라미터 규모의 대규모 언어 모델(LLM)에서도 성능 향상에 기여하는지 조사합니다. 수십억 파라미터 규모의 GrammarCoder 모델을 개발하여 HumanEval (+) 및 MBPP (+) 데이터셋에서 실험한 결과, 코드 생성 정확도가 향상됨을 보였습니다. 특히 문법 기반 표현은 미세한 코드 차이를 식별하는 LLM의 능력을 향상시켜, 사소한 변화로 인한 의미 오류를 줄이는 데 기여하는 것으로 나타났습니다. 이는 문법 기반 코드 표현이 수십억 규모의 모델에서도 구문 정확성 유지뿐 아니라 의미적 차별화 향상에도 유용함을 시사합니다.
시사점, 한계점
•
시사점:
◦
수십억 파라미터 규모의 LLM에서도 문법 기반 코드 표현이 코드 생성 정확도 향상에 효과적임을 실증적으로 보여줌.
◦
문법 기반 표현이 미세한 코드 차이 식별 능력 향상 및 의미 오류 감소에 기여함을 밝힘.
◦
대규모 언어 모델의 코드 생성 성능 향상을 위한 새로운 방향 제시.
•
한계점:
◦
본 연구에서 사용된 데이터셋(HumanEval(+), MBPP(+))의 일반화 가능성에 대한 추가 연구 필요.