Sign In

Examining Alignment of Large Language Models through Representative Heuristics: The Case of Political Stereotypes

Created by
  • Haebom
Category
Empty

저자

Sullam Jeoung, Yubin Ge, Haohan Wang, Jana Diesner

개요

본 논문은 대규모 언어 모델(LLM)의 정렬 문제, 특히 정치 영역에서 인간의 가치와의 정렬 문제를 다룬다. 기존 연구에서 LLM이 정치적 성향을 드러내고 특정 정당의 입장을 모방하는 현상이 관찰되었지만, LLM이 실제 입장에서 얼마나, 어떤 조건 하에 벗어나는지는 충분히 연구되지 않았다. 본 연구는 인지과학의 대표성 휴리스틱(representativeness heuristics) 개념을 활용하여 LLM이 정치적 이슈에 대한 실제 입장에서 벗어나는 원인을 분석하고, 그 정도를 정량화하며, 그 원인이 되는 조건을 규명하고자 한다. 실험을 통해 LLM이 정당에 대한 예측을 과장하여 고정관념을 형성하는 경향을 확인하고, LLM이 인간보다 대표성 휴리스틱에 더욱 민감하게 반응함을 밝혔다. 또한, 프롬프트 기반 완화 전략을 실험하여 인간에게 효과적인 전략이 LLM의 대표성 휴리스틱 영향 감소에도 효과적임을 보였다.

시사점, 한계점

시사점:
LLM이 정치적 고정관념을 생성하는 데 취약함을 보여줌.
LLM의 대표성 휴리스틱에 대한 민감성을 정량적으로 측정하고 분석.
인간에게 효과적인 대표성 휴리스틱 완화 전략이 LLM에도 적용 가능함을 제시.
한계점:
연구 대상이 특정 정치 영역에 국한됨.
분석에 사용된 LLM 모델의 종류 및 크기가 명시적으로 제한적일 수 있음.
프롬프트 기반 완화 전략의 일반화 가능성에 대한 추가 연구 필요.
👍