Sign In

Linear Representations of Political Perspective Emerge in Large Language Models

Created by
  • Haebom
Category
Empty

저자

Junsol Kim, James Evans, Aaron Schein

개요

본 논문은 대규모 언어 모델(LLM)이 미국 정치에서 자유주의적 관점과 보수주의적 관점을 포함한 다양한 주관적 인간 관점을 현실적으로 반영하는 능력을 연구합니다. 세 개의 오픈 트랜스포머 기반 LLM(Llama-2-7b-chat, Mistral-7b-instruct, Vicuna-7b)의 어텐션 헤드를 조사하여 정치적 관점이 활성화 공간 내에서 선형적으로 표현됨을 보여줍니다. 즉, 유사한 관점일수록 더 가까이 표현됩니다. 미국 의원들의 관점에서 텍스트를 생성하도록 모델에 프롬프트를 준 후, 의원들의 정치 이념을 측정하는 DW-NOMINATE 점수를 선형적으로 예측하는 어텐션 헤드 집합을 식별합니다. 높은 예측력을 가진 헤드는 주로 중간 레이어에 위치하며, 고차원 개념과 작업을 인코딩하는 것으로 추측됩니다. 의원들의 이념을 예측하도록 훈련된 프로브를 사용하여 동일한 프로브가 뉴스 매체의 성향을 예측할 수 있음을 보여줍니다. 이러한 선형 프로브를 통해 LLM이 개방형 응답을 생성할 때 암묵적으로 채택하는 이념적 입장을 시각화, 해석 및 모니터링할 수 있습니다. 마지막으로, 이러한 어텐션 헤드에 선형적 개입을 적용하여 모델 출력을 더 자유주의적 또는 보수주의적 입장으로 유도할 수 있음을 보여줍니다. 전반적으로 이 연구는 LLM이 미국 정치 이념에 대한 고차원 선형 표현을 가지고 있으며, 기계적 해석성의 최근 발전을 활용하여 생성된 텍스트의 기저에 있는 주관적 관점을 식별, 모니터링 및 조정할 수 있음을 시사합니다.

시사점, 한계점

시사점:
LLM이 미국 정치 이념을 선형적으로 표현한다는 것을 밝힘.
어텐션 헤드 분석을 통해 LLM의 이념적 성향을 식별, 모니터링, 조정 가능.
기계적 해석성 기법을 활용하여 LLM의 주관적 관점을 이해하고 제어 가능.
LLM의 생성 텍스트에 대한 이념적 편향을 분석하고 조절하는 새로운 방법 제시.
한계점:
연구는 미국 정치에만 집중, 다른 문화적 맥락에서의 일반화 가능성은 제한적.
DW-NOMINATE 점수의 한계점이 연구 결과에 영향을 미칠 수 있음.
선형 개입을 통한 이념 조정이 윤리적 함의를 고려해야 함.
특정 LLM과 데이터셋에 국한된 결과, 다른 모델이나 데이터셋에 대한 일반화 필요.
👍