Celia Cintas, Miriam Rateike, Erik Miehling, Elizabeth Daly, Skyler Speakman
개요
본 논문은 대규모 언어 모델(LLM)의 표현 공간에서 고유한 인간 특성, 가치관 및 신념 집합으로 정의되는 페르소나가 어떻게 그리고 어디에 인코딩되는지에 대한 연구를 제시합니다. 다양한 차원 축소 및 패턴 인식 방법을 사용하여 먼저 이러한 표현의 인코딩에서 가장 큰 차이를 보이는 모델 계층을 식별합니다. 그런 다음 선택된 계층 내의 활성화를 분석하여 공유 및 독립적인 임베딩 공간을 포함하여 특정 페르소나가 다른 페르소나와 관련하여 어떻게 인코딩되는지 조사합니다. 여러 사전 훈련된 디코더 전용 LLM에서 분석된 페르소나가 디코더 계층의 마지막 3분의 1 내에서만 표현 공간에서 큰 차이를 보이는 것을 발견했습니다. 도덕적 허무주의와 공리주의와 같은 특정 윤리적 관점에 대해서는 중복되는 활성화가 관찰되어 다의성이 나타남을 시사합니다. 반면 보수주의와 자유주의와 같은 정치 이념은 더욱 구별되는 영역에서 표현되는 것으로 나타났습니다. 이러한 결과는 LLM이 내부적으로 정보를 어떻게 표현하는지에 대한 이해를 높이고 LLM 출력에서 특정 인간 특성의 변조를 개선하기 위한 향후 노력에 정보를 제공할 수 있습니다. 주의: 이 논문에는 잠재적으로 불쾌한 샘플 문장이 포함되어 있습니다.
시사점, 한계점
•
시사점:
◦
LLM이 페르소나를 인코딩하는 방식에 대한 이해 증진.
◦
특정 인간 특성의 변조를 개선하기 위한 LLM 개발에 대한 시사점 제공.
◦
윤리적 관점과 정치 이념의 LLM 내 표현 방식의 차이점 제시.
◦
디코더 계층의 마지막 3분의 1이 페르소나 표현에 중요한 역할을 한다는 발견.
•
한계점:
◦
분석에 사용된 샘플 문장 중 일부가 잠재적으로 불쾌할 수 있음.
◦
분석 대상 LLM의 종류 및 범위에 대한 명확한 제시 부족 (추가적인 연구가 필요할 수 있음).
◦
다양한 페르소나 유형에 대한 포괄적인 분석이 부족할 수 있음 (추가적인 연구가 필요할 수 있음).