Cross-Family Universality of Behavioral Axes via Anchor-Projected Representations

작성자

Haebom

카테고리

Empty

저자

Su-Hyeon Kim, Yo-Sub Han

💡 개요

본 논문은 서로 다른 대형 언어 모델(LLM) 간의 행동 방향(behavioral directions)을 비교하고 전이하는 데 발생하는 어려움을 해결하기 위해, 각 모델의 은닉 표현(hidden representations)을 공유된 앵커 좌표 공간(Anchor Coordinate Space, ACS)으로 매핑하는 앵커-프로젝션(anchor-projection) 프레임워크를 제안합니다. 제안된 방법론을 통해 다양한 모델 계열에서 추출된 행동 방향을 ACS에 투영하고 평균화하여 표준화된 방향(canonical direction)을 생성하며, 이는 새로운 모델에서도 파인튜닝 없이 재구성되어 전이될 수 있습니다. 이를 통해 Llama, Qwen, Mistral, Phi 모델 계열에서 10가지 행동 축에 대한 방향성이 ACS에서 강하게 일치함을 발견했으며, 이는 다운스트림 태스크에서도 성공적으로 전이됨을 입증했습니다.

🔑 시사점 및 한계

•

모델 계열 간 행동 방향의 보편성 발견: 서로 다른 LLM 계열에서도 특정 행동 방향이 공유될 수 있음을 제시하며, 이는 모델 해석 가능성 및 전이 학습 분야에 중요한 시사점을 제공합니다.

•

효율적인 방향 전이 방법론 제시: 앵커-프로젝션 프레임워크는 파인튜닝이나 모델별 추가적인 방향 추출 없이도 행동 방향을 효과적으로 전이할 수 있는 새로운 방법을 제공합니다.

•

앵커 풀 및 소스 모델 수의 중요성: 앵커 풀의 크기와 소스 모델의 수가 전이 가능한 방향을 근사하는 데 얼마나 중요한지에 대한 민감도 분석을 수행했으며, 적은 수로도 충분히 근사할 수 있음을 보여주었습니다.

•

한계점/향후 과제: 제안된 방법론이 모든 행동 축 또는 모든 모델 계열에서 동일한 수준의 보편성을 보일지에 대한 추가적인 검증이 필요하며, ACS에서의 정렬이 실제 응용 프로그램에서의 복잡한 행동을 얼마나 잘 포착할 수 있는지에 대한 심층적인 연구가 필요합니다.

PDF 보기

Made with Slashpage