Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

The Alignment Game: A Theory of Long-Horizon Alignment Through Recursive Curation

Created by
  • Haebom
Category
Empty

저자

Ali Falahati, Mohammad Mohammadi Amiri, Kate Larson, Lukasz Golab

개요

자기 소모적 생성 모델은 자체 출력에 대해 학습하며, 사용자 선호도와의 정렬이 일회성이 아닌 반복적인 과정으로 진행됩니다. 본 논문은 이러한 반복적 재학습이 정렬에 미치는 장기적 영향을 분석하기 위한 최초의 형식적 기반을 제공합니다. Bradley-Terry (BT) 모델을 기반으로 하는 2단계 큐레이션 메커니즘 하에서 모델의 정렬을 두 세력, 즉 모델 출력을 필터링하는 모델 소유자와 모델과의 상호 작용을 통해 궁극적으로 공유되고 유지되는 출력을 결정하는 공공 사용자의 상호 작용으로 모델링합니다. 분석 결과, 선호도 정렬 정도에 따라 세 가지 구조적 수렴 체제, 즉 합의 붕괴, 공유 최적값 타협, 비대칭적 개선이 나타났습니다. 또한, 다양성을 유지하고, 대칭적인 영향을 보장하며, 초기화 의존성을 제거하는 것을 동시에 달성할 수 없는 근본적인 불가능성 정리를 증명합니다. 이 과정을 동적 사회 선택으로 프레이밍하여, 정렬이 정적인 목표가 아닌, 권력 불균형과 경로 의존성에 의해 형성되는 진화하는 평형 상태임을 보여줍니다.

시사점, 한계점

시사점:
자기 소모적 생성 모델의 정렬에 대한 장기적 영향을 분석하기 위한 최초의 형식적 프레임워크 제공.
BT 기반 큐레이션 메커니즘 하에서 정렬의 세 가지 수렴 체제(합의 붕괴, 공유 최적값 타협, 비대칭적 개선) 식별.
BT 기반 큐레이션 메커니즘이 다양성 유지, 대칭적 영향 보장, 초기화 의존성 제거를 동시에 달성할 수 없음을 증명.
정렬을 동적 사회 선택 관점에서 해석하여, 정렬이 진화하는 평형 상태임을 제시.
한계점:
BT 모델 기반 2단계 큐레이션 메커니즘에 한정된 분석.
다양한 실제 생성 모델 및 사용자 상호 작용 방식에 대한 일반화 필요.
권력 불균형 및 경로 의존성이 정렬에 미치는 구체적인 영향에 대한 추가 연구 필요.
👍