Sign In

Reflections on the Reproducibility of Commercial LLM Performance in Empirical Software Engineering Studies

Created by
  • Haebom
Category
Empty

저자

Florian Angermeir, Maximilian Amougou, Mark Kreitz, Andreas Bauer, Matthias Linhuber, Davide Fucci, Fabiola Moyon C., Daniel Mendez, Tony Gorschek

개요

본 연구는 대규모 언어 모델(LLM) 연구의 재현 가능성을 분석하는 데 중점을 둡니다. ICSE 2024와 ASE 2024에서 발표된 LLM 관련 연구 86편을 대상으로 분석을 진행했습니다. 특히, 연구 결과 재현을 위해 연구 산출물을 제공하고 OpenAI 모델을 사용한 18편의 논문을 선정하여 재현 시도를 했습니다. 그 결과, 18편 중 5편만이 재현 시도에 적합했으며, 이들조차 완전한 재현에는 실패했습니다. 부분적으로 재현 가능한 연구는 2편, 재현이 불가능한 연구는 3편으로 나타났습니다.

시사점, 한계점

시사점:
LLM 연구의 재현 가능성 확보를 위한 연구 산출물 평가 강화 필요성 제시.
향후 논문의 재현 가능한 가치를 보장하기 위한 보다 견고한 연구 설계의 중요성 강조.
한계점:
ICSE 2024와 ASE 2024에 발표된 논문으로 연구 범위를 제한함.
OpenAI 모델을 사용하고 연구 산출물을 제공한 18편의 논문을 대상으로 재현 시도 진행.
재현 시도의 성공 여부를 판단하는 구체적인 기준이 명시되지 않음.
👍