Sign In

Does In-IDE Calibration of Large Language Models work at Scale?

Created by
  • Haebom
Category
Empty

저자

Roham Koohestani, Agnia Sergeyuk, David Gros, Claudio Spiess, Sergey Titov, Prem Devanbu, Maliheh Izadi

개요

IDE에 대규모 언어 모델(LLM)을 도입하는 것은 소프트웨어 엔지니어링에 혁신을 가져오지만, AI가 생성한 코드의 유용성과 신뢰성에 대한 과제를 제기합니다. 본 연구는 코드 생성 모델의 신뢰성을 향상시키기 위해 모델 내부 신뢰도를 사후 보정하는 방법을 조사합니다. 연구는 (1) 신뢰도 보정 구현을 위한 기술적 방법과 (2) 개발자에게 신뢰성 신호를 효과적으로 전달하기 위한 인간 중심 설계 원칙의 두 가지 측면에 초점을 맞춥니다. 연구 결과, Platt-scaling 기반의 일반적인 사후 보정 모델은 평균적으로 모델 신뢰도 신호의 신뢰성을 향상시키지 못했습니다. 또한 개인별 맞춤형 보정은 효과적일 수 있지만 사용자의 상호 작용 데이터 양에 따라 효과가 크게 달라진다는 것을 발견했습니다. 마지막으로, 개발자들은 수치적이지 않은 색상 코딩 지표를 통해 신뢰성 신호를 전달하는 것을 선호했습니다.

시사점, 한계점

시사점:
대규모 데이터셋을 활용한 대규모 분석을 통해, 모델 신뢰도 보정의 실효성을 검증했습니다.
개인별 맞춤형 보정의 가능성을 제시했으나, 데이터 의존성을 확인했습니다.
개발자들이 직관적인 시각적 신호를 선호한다는 것을 밝혔습니다.
한계점:
Platt-scaling 기반의 보정이 일반적인 경우 효과가 없음을 확인했으므로, 다른 보정 기법에 대한 추가 연구가 필요합니다.
개인별 맞춤형 보정의 효과는 사용자 데이터 양에 크게 의존하므로, 데이터 부족 문제를 해결하기 위한 방안이 필요합니다.
연구 결과가 특정 모델 또는 프로그래밍 언어에 제한될 수 있습니다.
👍