# AI Alignment via Incentives and Correction

### 저자

Rohit Agarwal, Joshua Lin, Mark Braverman, Elad Hazan

### 💡 개요

본 연구는 AI 정렬 문제를 법경제학의 억제 및 집행 모델을 통해 접근하여, AI 시스템의 잘못된 행동을 외부 실패가 아닌 전략적 선택으로 간주하고 인센티브 구조를 설계하는 방법론을 제안합니다. 이를 위해 솔버와 감사자 간의 상호작용을 모델링하고, 수정 과정 전체에 대한 피드백을 활용하는 이중 최적화 문제를 해결하는 밴딧 기반 접근 방식을 제시합니다. 실험 결과, 동적 보상 설계가 정적인 보상보다 유용한 감독 압력을 유지하고 환각과 같은 잘못된 시도를 줄이는 데 효과적임을 입증했습니다.

### 🔑 시사점 및 한계

- AI의 잘못된 행동을 전략적 유인에 따른 결과로 보고, 처벌 강화가 오히려 감독 동기를 약화시킬 수 있다는 통찰을 제공합니다.

- 단순히 최종 결과에 대한 보상뿐만 아니라, 오류 발생, 검사 여부, 오류 탐지 여부, 감독 동기 활성화 여부 등 전체 수정 과정에 대한 신호를 학습에 활용해야 함을 강조합니다.

- 제안된 방법론은 복잡한 AI 시스템에서의 정렬 문제를 해결하는 데 유망하지만, 실제 복잡한 AI 파이프라인에 적용하기 위한 확장성과 효율성 연구가 추가적으로 필요합니다.

---

[PDF 보기](https://arxiv.org/pdf/2605.01643)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).