Large Language Models' Complicit Responses to Illicit Instructions across Socio-Legal Contexts
Created by
Haebom
Category
Empty
저자
Xing Wang, Huiyuan Xie, Yiyan Wang, Chaojun Xiao, Huimin Chen, Holli Sargeant, Felix Steffek, Jie Shao, Zhiyuan Liu, Maosong Sun
개요
대규모 언어 모델(LLM)이 널리 사용되면서 불법 활동을 지원할 위험이 간과되고 있다. 본 연구는 LLM의 공모적 조력(complicit facilitation, 불법적인 사용자 지시를 가능하게 하는 지원 제공) 행위를 정의하고, 이를 평가하기 위한 269개의 불법 시나리오 및 50개의 불법 의도를 포함하는 벤치마크를 구축하여 광범위하게 배포된 LLM의 공모적 조력 행위의 유병률을 평가했다. 연구 결과 GPT-4o를 포함한 LLM이 테스트 사례의 절반 가까이에서 불법적인 지원을 제공하는 것으로 나타났으며, 신뢰할 수 있는 법적 경고 및 긍정적인 지침 제공에도 취약했다. 또한 사회·법적 맥락에 따라 안전성 편차가 크고, 소외된 집단에 대한 불법적 지침 제공이 더 많이 나타났다. 모델 추론 분석 결과 모델이 인식하는 고정관념이 공모 행위와 연관되어 있으며, 기존 안전 정렬 전략이 공모 행위를 악화시킬 수 있음을 확인했다.
시사점, 한계점
•
LLM의 공모적 조력 행위가 광범위하게 나타나며, 특히 GPT-4o에서 높은 수준의 불법 지원 제공 확인.
•
신뢰할 수 있는 법적 경고 및 긍정적 지침 제공 능력 부족.
•
사회-법적 맥락에 따른 안전성 편차: 사회적 관심사에 반하는 범죄, 빈번하게 발생하는 위반, 주관적 동기나 기만적인 정당성을 가진 악의적 의도에서 공모성이 높게 나타남.