Sign In

How Diversely Can Language Models Solve Problems? Exploring the Algorithmic Diversity of Model-Generated Code

Created by
  • Haebom
Category
Empty

저자

Seonghyeon Lee, Heejae Chon, Joonwon Jang, Dongha Lee, Hwanjo Yu

개요

본 논문은 자연어 요구사항으로부터 코드를 생성하는 언어 모델(LMs)의 코드 생성 능력 평가에서 생성 코드의 다양성을 중요한 기준으로 제시합니다. 기존 연구에서 생성 코드의 다양성 평가가 부족했던 점을 지적하며, 코드 간 유사성을 고려한 다양한 지표를 도입하여 코드 다양성을 체계적으로 평가하는 방법을 제안합니다. 특히, LM의 코드 이해 및 추론 능력을 활용한 코드 클러스터링 기법을 통해 모델 생성 솔루션의 알고리즘 수를 나타내는 지표들을 제시합니다. 모델 크기, 온도, instruction tuning, 문제 복잡성 등 다양한 요소들이 코드 다양성에 미치는 영향을 정량적으로 분석하고, 모델 생성 솔루션과 사람이 작성한 솔루션을 비교 분석하여 모델 생성 솔루션의 알고리즘 다양성이 낮다는 것을 보여줍니다. 또한, 서로 다른 모델의 솔루션을 결합하거나, 온도를 1.0 이상으로 높이는 방법을 통해 코드 다양성을 높이는 방법을 탐구하며, 이를 통해 코드 다양성 향상에 이종 모델과 높은 온도 설정이 효과적임을 제시합니다. 마지막으로, 연구를 위한 코드와 데이터셋을 공개적으로 공유합니다.

시사점, 한계점

시사점:
언어 모델의 코드 생성 능력 평가에 있어 코드 다양성의 중요성을 강조하고, 이를 평가하기 위한 체계적인 방법론을 제시.
기존 연구에서 간과되었던 모델 생성 코드의 낮은 알고리즘 다양성 문제를 밝힘.
이종 모델 결합 및 높은 온도 설정을 통한 코드 다양성 향상 방안 제시.
공개된 코드와 데이터셋을 통해 후속 연구 활성화에 기여.
한계점:
제시된 코드 다양성 평가 방법론의 일반화 가능성 및 다른 코드 생성 모델에 대한 적용 가능성에 대한 추가 연구 필요.
높은 온도 설정을 통한 코드 다양성 향상이 기능적 정확성 저하와의 trade-off를 고려해야 함.
다양한 프로그래밍 언어 및 코드 스타일을 고려한 더욱 포괄적인 연구 필요.
👍