본 논문은 최근 대규모 언어 모델(LLM)의 발전으로 인해, 특히 코드 혼합 입력 및 출력을 다룰 때 안전성에 대한 우려가 커지고 있음을 다룹니다. 연구에서는 코드 혼합 프롬프트에서 단일 언어 영어 프롬프트에 비해 LLM이 안전하지 않은 출력을 생성할 가능성이 증가하는 현상을 체계적으로 조사합니다. 설명 가능성 기법을 활용하여 모델의 유해한 행동을 유발하는 내부 귀인 변화를 분석하고, 보편적으로 안전하지 않은 질의와 문화적으로 특정한 안전하지 않은 질의를 구분하여 문화적 측면을 탐구합니다. 이 논문은 이러한 현상을 유발하는 메커니즘을 명확히 하는 새로운 실험적 통찰력을 제시합니다.
시사점, 한계점
•
시사점: 코드 혼합 입력에 대한 LLM의 안전성 취약성을 체계적으로 분석하고, 그 메커니즘을 설명 가능성 기법을 통해 밝힘으로써 LLM의 안전성 향상을 위한 방향을 제시합니다. 문화적 맥락을 고려한 안전성 평가의 중요성을 강조합니다.
•
한계점: 본 연구에서 사용된 설명 가능성 기법의 한계로 인해, 모델의 내부 동작에 대한 완벽한 이해가 어려울 수 있습니다. 특정 문화권에 대한 분석에 국한되어, 다른 문화권으로의 일반화 가능성이 제한적일 수 있습니다. 또한, 특정 LLM에 대한 분석 결과이므로, 다른 LLM에도 동일하게 적용될 수 있는지에 대한 추가 연구가 필요합니다.