Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Intrinsic Barriers and Practical Pathways for Human-AI Alignment: An Agreement-Based Complexity Analysis

Created by
  • Haebom
Category
Empty

저자

Aran Nayebi

개요

본 논문은 AI 정렬 문제를 $\langle M,N,\varepsilon,\delta\rangle$-합의라는 다중 목표 최적화 문제로 공식화한다. 여기서 $N$명의 에이전트(인간 포함)는 $M$개의 후보 목표에 대해 확률 $1-\delta$로 근사적 ($\varepsilon$) 합의에 도달해야 한다. 통신 복잡성을 분석하여 $M$ 또는 $N$이 충분히 커지면 계산 능력이나 합리성으로는 본질적인 정렬 오버헤드를 피할 수 없다는 정보 이론적 하한을 증명한다. 이는 "모든 인간 가치"를 인코딩하는 것은 본질적으로 다루기 어렵고 합의 기반 축소 또는 목표 우선 순위를 통해 관리해야 한다는 "No-Free-Lunch" 원리를 명확히 하며, 정렬 자체에 대한 엄격한 제한을 설정한다. 이러한 불가능성 결과를 보완하기 위해, 무제한 및 제한된 합리성 하에서 잡음 통신을 사용하여 정렬을 위한 명시적 알고리즘을 구축한다. 제한된 에이전트 및 샘플링 분석을 통해 대규모 작업 공간($D$)과 유한한 샘플을 사용하면 보상 해킹이 전역적으로 불가피하다는 것을 보여준다. 희귀한 높은 손실 상태는 체계적으로 과소 보상되므로 확장 가능한 감독은 균일한 적용 범위가 아닌 안전에 중요한 부분에 초점을 맞춰야 한다.

시사점, 한계점

시사점:
AI 정렬에 대한 근본적인 복잡성 장벽을 확인한다. (작업, 에이전트 수, 상태 공간 크기)
확장 가능한 인간-AI 협력을 위한 원칙을 제시한다.
"No-Free-Lunch" 원리를 통해 "모든 인간 가치" 인코딩의 어려움을 강조한다.
보상 해킹의 불가피성을 보여주며, 안전에 중요한 부분에 집중하는 감독의 중요성을 강조한다.
한계점:
특정 정렬 방법론에 대한 제한이 아닌, 정렬 자체의 근본적인 한계를 다룬다.
수학적 모델을 기반으로 하며, 실제 AI 시스템에 대한 적용에는 추가적인 연구가 필요하다.
노이즈가 있는 환경과 제한된 합리성 하에서의 알고리즘은 이상적인 환경에서의 작동을 보장하지 않는다.
👍