본 논문은 20개의 인기있는 대규모 언어 모델(LLM)이 생성한 코드의 에너지 효율성을 LeetCode의 878개 프로그래밍 문제를 통해 조사한 연구 결과를 제시합니다. LLM이 대부분의 경우 기능적으로 정확한 결과를 생성하지만, LLM이 생성한 코드의 성능 및 에너지 효율성은 사람이 작성한 코드보다 훨씬 떨어지는 것으로 나타났습니다. DeepSeek-v3와 GPT-4o가 가장 에너지 효율적인 코드를 생성했고, Grok-2와 Gemini-1.5-Pro는 가장 에너지 효율이 낮은 모델로 분류되었습니다. 특정 알고리즘 그룹(동적 계획법, 백트래킹, 비트 조작 등)에서는 LLM이 생성한 코드의 에너지 소비량이 사람이 작성한 코드보다 최대 450배 더 높았습니다.
시사점, 한계점
•
시사점:
◦
LLM이 생성하는 코드의 에너지 효율성이 사람이 작성한 코드보다 현저히 낮다는 것을 밝혔습니다.
◦
LLM별 에너지 효율성 차이가 크게 나타났으며, 모델 선택이 에너지 소비에 큰 영향을 미침을 보여줍니다.
◦
특정 알고리즘 유형에서 에너지 효율성 차이가 더욱 심각하게 나타남을 확인했습니다.
◦
소프트웨어 개발의 환경적 영향을 고려해야 함을 시사합니다.
•
한계점:
◦
LeetCode 문제에 국한된 연구 결과이므로, 다른 종류의 프로그래밍 문제에 대한 일반화에는 주의가 필요합니다.
◦
사용된 LLM의 버전이 고정되어 있어, 향후 모델 업데이트에 따른 에너지 효율 변화를 반영하지 못합니다.