본 논문은 중국어 독성 콘텐츠 탐지에서 대규모 언어 모델(LLM)의 취약성을 다룹니다. 단순한 문자 치환을 통한 교란 전략으로 최첨단 LLM을 쉽게 속일 수 있다는 점을 지적하며, 중국어의 다중 양식적 특성을 주요 과제로 제시합니다. 3가지 교란 전략과 8가지 구체적인 접근 방식을 포함하는 분류 체계를 제안하고, 이를 기반으로 데이터셋을 구축하여 미국과 중국 출신 9개의 최첨단 LLM을 벤치마킹했습니다. 또한, In-context learning (ICL)과 supervised fine-tuning (SFT)과 같은 비용 효율적인 개선 방안을 탐구했습니다. 연구 결과, LLM은 교란된 다중 양식 중국어 독성 콘텐츠 탐지에 어려움을 겪으며, 소량의 교란된 예시를 사용한 ICL 또는 SFT는 정상적인 중국어 콘텐츠를 독성 콘텐츠로 잘못 식별하는 "과교정" 문제를 야기할 수 있음을 밝혔습니다.
시사점, 한계점
•
시사점:
◦
중국어 독성 콘텐츠 탐지에서 LLM의 취약성을 명확히 제시하고, 그 원인으로 중국어의 다중 양식적 특성을 규명했습니다.
◦
다양한 교란 전략과 최첨단 LLM에 대한 벤치마킹 결과를 제시하여 현실적인 문제점을 보여줍니다.
◦
ICL 및 SFT와 같은 개선 방안을 제시했지만, 이러한 방법의 한계 또한 명확히 밝혔습니다.