# Modelling bounded rational decision-making through Wasserstein constraints

### 저자

Benjamin Patrick Evans, Leo Ardon, Sumitra Ganesh

### 개요

본 논문은 강화 학습 프레임워크 내에서 제한된 합리적 의사결정 모델링을 위한 새로운 접근 방식을 제시합니다. 기존의 엔트로피, Kullback-Leibler divergence, 상호 정보량 기반 접근 방식은 서열적 행동 공간에서 여러 문제점을 가지고 있는데, 특히 엔트로피는 사전 편향의 영향을 고려하지 못하고, KL-Divergence는 행동 간의 "근접성" 개념이 없으며 비대칭적이고 분포의 지지 집합이 동일해야 하는 등의 한계를 지닙니다. 상호 정보량은 추정이 어렵다는 단점도 있습니다.  본 논문에서는 Wasserstein 거리를 활용하여 이러한 문제점들을 극복하는 새로운 접근 방식을 제안합니다.  이 접근 방식은 서열적 행동 간의 근접성을 고려하여 에이전트 결정의 "점착성"을 모델링하고, 낮은 확률의 행동과 0 지지 집합 사전 분포를 지원하며 계산이 간편합니다.

### 시사점, 한계점

- **시사점:**

    - 서열적 행동 공간에서 제한된 합리적 의사결정 모델링의 새로운 접근 방식 제시

    - Wasserstein 거리를 활용하여 기존 접근 방식의 한계점(사전 편향 무시, 행동 간 근접성 고려 부족, 계산 복잡도 등) 극복

    - 에이전트 결정의 "점착성"을 모델링하고 낮은 확률의 행동과 0 지지 집합 사전 분포를 지원

    - 계산이 간편하여 실제 적용 가능성 증가

- **한계점:**

    - Wasserstein 거리를 사용한 접근 방식의 일반적인 성능 및 적용 가능성에 대한 추가적인 실험적 검증 필요

    - 다른 유형의 행동 공간이나 의사결정 문제에 대한 적용 가능성 연구 필요

[PDF 보기](https://arxiv.org/pdf/2504.03743)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
