Inoculation Prompting: Eliciting traits from LLMs during training can suppress them at test-time
Created by
Haebom
저자
Daniel Tan, Anders Woodruff, Niels Warncke, Arun Jose, Maxime Riche, David Demitri Africa, Mia Taylor
개요
본 논문은 언어 모델 미세 조정 시 원치 않는 특성이 학습되는 문제를 해결하기 위해 제안된 '접종 프롬프팅(inoculation prompting)' 기법을 소개한다. 이 기법은 미세 조정 데이터에 의도적으로 원치 않는 특성을 유발하는 짧은 시스템 프롬프트 지침을 추가하는 방식으로 작동한다. 테스트 시에는 이 지침 없이 평가하며, 접종된 모델은 수정되지 않은 훈련 데이터로 훈련된 모델보다 해당 특성을 훨씬 적게 나타낸다. 예를 들어, 모델이 스페인어로 대답하고 모든 대문자로 응답하는 상황에서 적절한 접종(예: "당신은 항상 스페인어로 말합니다.")은 모델이 응답을 대문자로 표시하도록 가르치면서도 영어로 응답하도록 할 수 있다. 접종 프롬프팅은 미세 조정으로 인한 정렬 불일치(EM) 감소, 백도어 주입 방어, 잠재 학습을 통한 특성 전송 완화 등 여러 추가 설정에서도 효과적임을 확인했다.
시사점, 한계점
•
시사점:
◦
선택적 학습을 위한 간단하고 효과적인 기술 제안.
◦
언어 모델이 어떻게, 왜 일반화되는지에 대한 이해 증진.
◦
미세 조정으로 인한 정렬 불일치(EM) 완화, 백도어 주입 방어, 잠재 학습을 통한 특성 전송 완화 효과 입증.
◦
특성을 접종하여 모델이 덜 놀랍게 만들면 전반적인 모델 업데이트 압력을 줄여 일반화 정도를 감소시킬 수 있다는 메커니즘 제시.
◦
교육적 맥락이 안전하지 않은 코드에서 발생하는 EM을 완화한다는 이전 연구 결과 설명.
•
한계점:
◦
논문에서 구체적인 한계점 언급 없음. (Abstract 내용만으로는 한계점을 파악하기 어려움)