Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Localizing Persona Representations in LLMs

Created by
  • Haebom

저자

Celia Cintas, Miriam Rateike, Erik Miehling, Elizabeth Daly, Skyler Speakman

개요

본 논문은 대규모 언어 모델(LLM)의 표상 공간에서 개인 특성, 가치관, 신념으로 정의되는 페르소나가 어떻게 그리고 어디에 인코딩되는지에 대한 연구를 제시합니다. 다양한 차원 축소 및 패턴 인식 방법을 사용하여, 먼저 이러한 표상의 인코딩에서 가장 큰 차이를 보이는 모델 계층을 식별합니다. 그런 다음 선택된 계층 내의 활성화를 분석하여 특정 페르소나가 다른 페르소나와 비교하여 어떻게 인코딩되는지, 공유된 임베딩 공간과 구별되는 임베딩 공간을 포함하여 조사합니다. 여러 사전 훈련된 디코더 전용 LLM에서 분석된 페르소나가 디코더 계층의 마지막 3분의 1 내에서만 표상 공간에 큰 차이를 보이는 것을 발견했습니다. 도덕적 허무주의와 공리주의와 같은 특정 윤리적 관점에 대해 중첩된 활성화가 관찰되어 다의성의 정도를 나타냅니다. 반대로, 보수주의와 자유주의와 같은 정치적 이데올로기는 더욱 구별되는 영역에서 표현되는 것으로 나타났습니다. 이러한 결과는 LLM이 내부적으로 정보를 어떻게 표현하는지에 대한 이해를 높이고 LLM 출력에서 특정 인간 특성의 변조를 개선하기 위한 향후 노력에 정보를 제공합니다. 본 논문에는 잠재적으로 불쾌한 샘플 문장이 포함되어 있습니다.

시사점, 한계점

시사점: LLM이 페르소나를 인코딩하는 방식에 대한 이해 증진, 특히 디코더 계층의 마지막 부분에서의 차이점과 윤리적 관점과 정치적 이데올로기의 표현 방식의 차이에 대한 통찰력 제공. LLM 출력에서 특정 인간 특성의 변조를 개선하는 데 도움이 될 수 있는 연구 결과 제시.
한계점: 분석에 사용된 LLM의 종류와 샘플 데이터의 제한으로 인한 일반화의 어려움. 잠재적으로 불쾌한 샘플 문장의 사용에 따른 윤리적 문제 제기. 분석된 페르소나의 종류와 수에 대한 제한. LLM 내부 표상에 대한 완전한 이해 제공에는 한계가 있을 수 있음.
👍