본 논문은 대규모 언어 모델(LLM)의 안전성 및 인간 가치와의 정렬을 향상시키는 새로운 역추적(backtracking) 방법을 제안합니다. 기존의 안전 정렬 방법들은 적대적 공격에 취약하고, 생성된 출력의 초기 토큰에서 유해한 콘텐츠를 방지하는 데 초점을 맞추어 얕은 안전 정렬을 초래하는 한계를 가지고 있습니다. 본 논문에서 제안하는 방법은 안전 위반이 발생할 때 생성 과정의 시작점이 아닌, 안전한 생성 상태로 되돌아갈 수 있도록 함으로써 문제가 되는 부분만 수정하고 전체 텍스트를 버리지 않아 효율성을 유지합니다. 이는 특히 길고 복잡한 텍스트에서 미묘한 안전 위반(예: 독성)을 해결하는 데 효과적입니다. 실험 결과, 제안된 방법이 독성을 크게 줄이면서 효율성에는 거의 영향을 미치지 않는다는 것을 보여줍니다.
시사점, 한계점
•
시사점:
◦
LLM의 안전성 향상을 위한 새로운 역추적 방법 제시.
◦
기존 방법의 한계인 적대적 공격 취약성 및 얕은 안전 정렬 문제 해결에 기여.
◦
긴 텍스트에서의 미묘한 안전 위반(예: 독성) 효과적으로 해결.
◦
효율성 저하 없이 독성 감소 효과 달성.
•
한계점:
◦
제안된 방법의 일반화 성능 및 다양한 안전 위반 유형에 대한 적용 가능성에 대한 추가 연구 필요.