본 논문은 대규모 언어 모델(LLM)의 인컨텍스트 학습(ICL)의 신뢰성을 평가하기 위한 소프트웨어 테스트 기반 프레임워크인 MMT4NL을 제시한다. MMT4NL은 적대적 예시와 소프트웨어 테스트 기법을 활용하여 ICL의 취약점을 찾아낸다. LLM을 소프트웨어로 간주하고, 테스트 세트로부터 변형된 적대적 예시를 생성하여 ICL 프롬프트의 버그를 정량화하고 특정한다. 감정 분석과 질의응답 과제에 대한 실험을 통해 최첨단 LLM의 다양한 언어적 버그를 드러낸다.
시사점, 한계점
•
시사점:
◦
소프트웨어 테스트 기법을 활용하여 LLM의 ICL 신뢰성을 평가하는 새로운 프레임워크(MMT4NL) 제시.
◦
적대적 예시 생성을 통해 LLM의 취약점을 효과적으로 찾아낼 수 있음을 보여줌.
◦
다양한 언어적 버그를 밝혀냄으로써 LLM의 성능 향상에 기여.
•
한계점:
◦
MMT4NL의 적용 범위가 감정 분석과 질의응답 과제에 국한됨. 다른 과제에 대한 일반화 가능성 검증 필요.