본 논문은 대규모 언어 모델(LLM)이 정치적, 경제적 이념적 편향을 코드화하고 재현하는 경향에 대한 우려를 다룹니다. 디코더 기반 LLM에서 이러한 편향을 조사하고 완화하기 위한 프레임워크를 제시하며, 정치 콤파스 테스트(PCT)를 기반으로 미스트랄과 딥시크와 같은 모델의 은닉층 활성화를 추출하고 비교하는 대조쌍을 사용합니다. 여러 이념적 축에 걸쳐 계층별 분석이 가능한 포괄적인 활성화 추출 파이프라인을 도입하여 정치적 프레이밍과 관련된 의미있는 차이점을 밝혀냅니다. 결과적으로 디코더 LLM은 계층 전반에 걸쳐 체계적으로 표상 편향을 코드화하며, 이는 효과적인 스티어링 벡터 기반 완화에 활용될 수 있음을 보여줍니다. 표면적인 출력 개입을 넘어 편향을 제거하기 위한 원칙적인 접근 방식을 제시하며, LLM에 정치적 편향이 어떻게 코드화되는지에 대한 새로운 통찰력을 제공합니다.