Sign In

Challenges in Testing Large Language Model Based Software: A Faceted Taxonomy

Created by
  • Haebom
Category
Empty

저자

Felix Dobslaw, Robert Feldt, Juyeon Yoon, Shin Yoo

개요

본 논문은 기존 소프트웨어와 달리 비결정성을 갖는 대규모 언어 모델(LLM)과 다중 에이전트 LLM(MALLM)의 검증을 위한 새로운 테스트 케이스 설계 분류 체계를 제시합니다. 단순 출력 비교나 통계적 정확도를 넘어 LLM의 정확성을 검증하기 위한 접근 방식이 필요하며, 연구 문헌, 연구진의 경험, 그리고 최신 오픈소스 도구를 바탕으로 LLM 테스트 케이스 설계의 핵심 변수들을 확인하고, LLM이 소프트웨어 시스템에 필수적인 부분이 됨에 따라 연구, 산업, 오픈소스 커뮤니티가 해결해야 할 과제들을 강조합니다. 입력과 출력의 모호성을 해결하고 모범 사례를 확립하면서 LLM 테스트 케이스 설계의 네 가지 측면을 정의하고, 목표, 테스트 대상 시스템, 입력의 변동성을 구분하며 원자적 오라클과 집계적 오라클이라는 두 가지 주요 오라클 유형을 제시합니다. 현재 도구들이 이러한 변동성을 충분히 고려하지 못하고 있음을 보여주고, LLM 테스트의 신뢰성과 재현성을 향상시키기 위해 학계와 실무자 간의 긴밀한 협력이 필요함을 강조합니다.

시사점, 한계점

시사점: LLM 테스트 케이스 설계를 위한 체계적인 분류 체계 제시, LLM 테스트의 핵심 변수 식별, 원자적 및 집계적 오라클 유형 제시, 학계와 산업계의 협력 필요성 강조.
한계점: 제시된 분류 체계의 실제 적용 및 효과에 대한 추가적인 실험적 검증 필요, 현존하는 오픈소스 도구의 한계와 개선 방향에 대한 구체적인 제안 부족, 다양한 LLM 아키텍처 및 애플리케이션에 대한 일반화 가능성에 대한 추가 연구 필요.
👍