대규모 언어 모델(LLM)이 개인 비서로 발전하면서 민감한 사용자 데이터에 접근하게 됨에 따라, 내부 추론 과정에서 개인 정보를 유출하는 문제에 직면하고 있습니다. 본 논문은 이러한 상황에서 모델의 추론 능력을 손상시키지 않으면서 개인 정보 유출을 방지하는 것을 목표로 합니다. 이를 위해, 은닉 상태에 특정 조향 벡터를 주입하여 모델의 Chain of Thought(CoT) 과정에서 발생하는 정보 유출을 완화하는 경량 테스트 시간 개입 방법인 SALT(Steering Activations towards Leakage-free Thinking)를 제안합니다. 실험 결과, SALT는 다양한 LLM에서 컨텍스트 개인 정보 유출을 줄이면서도 유사한 작업 성능을 유지하는 것으로 나타났습니다.
시사점, 한계점
•
시사점:
◦
LLM의 추론 과정에서 발생하는 개인 정보 유출 문제를 해결하기 위한 실용적인 테스트 시간 개입 방법 제시.
◦
SALT를 통해 개인 정보 유출을 줄이면서 모델의 성능을 유지할 수 있음을 입증.
◦
LLM 기반 개인 비서의 안전한 배포를 위한 새로운 접근 방식 제시.
•
한계점:
◦
특정 데이터셋 및 LLM 모델에 대한 실험 결과만 제시되어 일반화 가능성에 대한 추가 연구 필요.