본 논문은 대규모 언어 모델(LLM)이 인간에게는 이해할 수 없는 '비자연어' 문장(예: Jailbreak prompt)을 처리하는 현상을, 버그가 아닌 모델의 잠재적 기능으로 해석하고자 시도합니다. 연구 결과, 비자연어는 인간에게는 이해 불가능하지만 LLM에게는 의미를 지니는 문자열이며, 모델 간, 과제 간 일반화 가능한 잠재적 특징을 포함하고 있음을 보여줍니다. 비자연어로 미세 조정된 모델은 자연어로 훈련된 모델과 동등한 성능을 보이며, 다양한 기본 모델에서 평균 49.71%의 승률을 Length-controlled AlpacaEval 2.0에서 달성했습니다. 나아가, LLM이 비자연어를 처리하는 과정은 노이즈 필터링과 필터링된 단어로부터 문맥적 의미를 추론하는 과정임을 분석을 통해 보여줍니다.
시사점, 한계점
•
시사점:
◦
LLM의 비자연어 처리 능력은 버그가 아닌, 모델의 잠재적 기능일 수 있음을 시사합니다.
◦
비자연어는 모델 간, 과제 간 일반화 가능한 잠재적 특징을 지니고 있음을 보여줍니다.
◦
비자연어를 활용한 모델 미세 조정은 자연어 기반 훈련과 동등한 성능을 달성할 수 있음을 제시합니다.
◦
LLM의 비자연어 처리 메커니즘에 대한 이해를 심화시킵니다.
•
한계점:
◦
본 연구에서 제시된 비자연어의 정의 및 생성 방법에 대한 명확한 기준이 부족할 수 있습니다.