Sign In

Evaluating Large Language Models in Code Generation: INFINITE Methodology for Defining the Inference Index

Created by
  • Haebom
Category
Empty

저자

Nicholas Christakis, Dimitris Drikakis

개요

본 연구는 대규모 언어 모델(LLM)의 코드 생성 성능을 평가하기 위한 새로운 지표인 추론 지수(InI) 방법론인 INFINITE를 제안합니다. INFINITE는 효율성, 일관성, 정확성 세 가지 주요 구성 요소에 초점을 맞춰 종합적인 평가를 제공합니다. 시간 기반 효율성, 응답 품질, 모델 출력의 안정성을 포함하여 기존 정확도 지표를 넘어 LLM 성능에 대한 철저한 이해를 제공합니다. 본 연구에서는 기온, 상대 습도, 풍속과 같은 기상 변수를 예측하기 위한 장단기 메모리(LSTM) 모델의 Python 코드 생성에서 OpenAI의 GPT-4o(GPT), OpenAI-o1 pro(OAI1), OpenAI-o3 mini-high(OAI3)를 비교 분석했습니다. 그 결과, GPT가 정확성과 워크플로우 효율성 측면에서 OAI1보다 우수하며 OAI3와 비슷한 성능을 보이는 것으로 나타났습니다. LLM 지원 코드 생성은 효과적인 프롬프트와 개선을 통해 전문가가 설계한 모델과 유사한 결과를 생성할 수 있음을 보여줍니다. GPT의 성능 우위는 광범위한 사용과 사용자 피드백의 이점을 강조합니다.

시사점, 한계점

시사점:
LLM의 코드 생성 성능 평가를 위한 새로운 지표인 INFINITE 제시
LLM 지원 코드 생성이 전문가 수준의 결과를 생성할 수 있음을 증명
GPT-4o의 우수한 성능은 광범위한 사용과 사용자 피드백의 중요성을 시사
효율성, 일관성, 정확성을 종합적으로 고려한 LLM 성능 평가의 중요성 강조
한계점:
INFINITE 지표의 일반화 가능성에 대한 추가 연구 필요
다양한 LLM과 코드 생성 작업에 대한 추가적인 실험 필요
평가에 사용된 데이터셋의 한계 및 일반화 가능성에 대한 고려 필요
특정 기상 예측 모델(LSTM)에 국한된 결과의 일반화 가능성에 대한 검토 필요
👍