본 논문은 대규모 언어 모델(LLM)의 인 컨텍스트 학습(ICL)의 신뢰성을 평가하기 위한 소프트웨어 테스트 기반 프레임워크인 MMT4NL을 제안합니다. MMT4NL은 적대적 섭동과 소프트웨어 테스트 기법을 활용하여 ICL의 다양한 언어적 능력을 평가합니다. LLM을 소프트웨어로 간주하고, 테스트 세트로부터 변형된 적대적 예시를 생성하여 ICL 프롬프트의 버그를 정량화하고 특정짓는 것을 목표로 합니다. 감정 분석과 질의응답 과제에 대한 실험을 통해 최첨단 LLM의 다양한 언어적 버그를 드러냅니다.
시사점, 한계점
•
시사점:
◦
소프트웨어 테스트 기법을 활용하여 LLM의 ICL 신뢰성을 평가하는 새로운 프레임워크(MMT4NL) 제시.