Sign In

Patterns and Mechanisms of Contrastive Activation Engineering

Created by
  • Haebom
Category
Empty

저자

Yixiong Hao, Ayush Panda, Stepan Shabalin, Sheikh Abdur Raheem Ali

개요

본 논문은 대규모 언어 모델(LLM)의 동작 제어에 있어 기존의 파인튜닝 방식의 한계를 극복하기 위해 제시된 대조적 활성화 엔지니어링(CAE) 기법을 분석합니다. CAE는 추론 시점에 적용되어 추가적인 계산 비용 없이 LLM의 출력을 조절할 수 있는 잠재력을 지닌 기법입니다. 논문에서는 CAE의 성능을 in-distribution 및 out-of-distribution 설정에서 평가하고, 단점을 분석하며 효과적인 적용을 위한 지침을 제시합니다.

시사점, 한계점

시사점:
추론 시점에서 추가적인 비용 없이 LLM의 동작을 조절할 수 있는 CAE 기법의 가능성 제시
LLM 동작 제어를 위한 새로운 패러다임 제시
한계점:
in-distribution 상황에서만 안정적으로 효과적임
조향 벡터 생성에 사용되는 샘플 수 증가는 80개 정도에서 수확 체감 현상 발생
조향 벡터가 적대적 입력에 취약하여 의도치 않은 동작 변화 유발 가능성 존재
조향 벡터가 모델의 전체적인 perplexity를 저하시킴
대규모 모델일수록 조향으로 인한 성능 저하에 대한 저항성이 높음
👍