Shared Parameter Subspaces and Cross-Task Linearity in Emergently Misaligned Behavior
Created by
Haebom
Category
Empty
저자
Daniel Aarao Reis Arturi, Eric Zhang, Andrew Ansah, Kevin Zhu, Ashwinee Panda, Aishwarya Balwani
개요
본 연구는 대규모 언어 모델(LLM)이 좁은 범위의 유해 데이터셋에 미세 조정된 후 광범위하게 정렬되지 않은 동작을 보이는 'EM(emergent misalignment)' 현상을 연구합니다. 특히 EM의 기저 메커니즘을 이해하기 위해 기하학적 관점을 채택하여, 서로 다른 데이터셋에서 유해한 동작이 인코딩되는 방식에 근본적인 상호 작업 선형 구조가 존재함을 밝힙니다.
시사점, 한계점
•
시사점:
◦
EM은 서로 다른 좁은 작업들이 동일한 매개변수 방향을 발견함으로써 발생할 수 있음을 시사합니다.