Curveball Steering: The Right Direction To Steer Isn't Always Linear
Created by
Haebom
Category
Empty
저자
Shivam Raval, Hae Jin Song, Linlin Wu, Abir Harrasse, Jeff M. Phillips, Fazl Barez, Amirali Abdullah
💡 개요
본 논문은 LLM 행동 제어에 널리 사용되는 활성화 제어(activation steering) 기법의 선형성 가정을 비판하며, LLM 활성화 공간의 기하학적 왜곡을 분석했습니다. 이러한 왜곡을 해결하기 위해 다항식 커널 PCA를 기반으로 하는 비선형 제어 기법인 "Curveball steering"을 제안하고, 제안된 방법이 선형 PCA 기반 제어보다 우수함을 입증했습니다.
🔑 시사점 및 한계
•
LLM 활성화 공간의 비선형적인 기하학적 구조를 고려한 제어 기법이 효과적임을 시사합니다.
•
기존의 선형 활성화 제어 방식의 한계를 극복하고 LLM 행동을 더욱 일관성 있게 제어할 수 있는 새로운 방향을 제시합니다.
•
제안된 Curveball steering 방법이 다양한 LLM 및 작업에서 얼마나 일반화될 수 있는지, 그리고 계산 복잡성 증가는 어느 정도인지에 대한 추가적인 연구가 필요합니다.