# Q-function Decomposition with Intervention Semantics with Factored Action Spaces

### 저자

Junkyu Lee, Tian Gao, Elliot Nelson, Miao Liu, Debarun Bhattacharjya, Songtao Lu

### 개요

본 논문은 이산적 요인 행동 공간을 갖는 강화 학습 환경에서 행동의 조합적 집합이 커지는 문제를 해결하는 방법을 제시합니다. 기존의 선형 분해 방식 대신, 원래 행동 공간의 저차원 투영 공간 상에서 Q-함수를 정의하고, 인과 통계의 'no unobserved confounder' 설정에서 인과 효과 추정을 이용하여 분해된 Q-함수의 불편향성 조건을 연구합니다. 이를 통해, 투영된 Q-함수를 사용하여 표준 모델-프리 강화 학습 알고리즘에서 Q-함수를 근사하는 '행동 분해 강화 학습'이라는 일반적인 방식을 제안합니다.  모델 기반 강화 학습 설정에서 샘플 복잡도를 개선하는 것으로 나타났으며, 온라인 연속 제어 환경과 실제 오프라인 패혈증 치료 환경에서 최첨단 기준 모델보다 샘플 효율성이 향상됨을 보여줍니다.

### 시사점, 한계점

- **시사점:**

    - 이산적 요인 행동 공간을 갖는 강화 학습 문제에 대한 효율적인 해결 방안 제시.

    - 인과 효과 추정을 활용하여 분해된 Q-함수의 불편향성을 보장하는 일반적인 틀 제시.

    - 모델 기반 강화 학습에서 샘플 복잡도 개선 및 실험을 통한 샘플 효율성 향상 확인.

    - 온라인 연속 제어 및 실제 오프라인 환경에서의 성능 향상 확인.

- **한계점:**

    - 제안된 방법의 적용 가능성은 'no unobserved confounder' 설정에 의존적일 수 있음.  실제 환경에서 이 조건이 항상 만족되는 것은 아님.

    - 투영 공간의 차원 및 투영 방식 선택에 대한 추가적인 연구 필요.

    - 제시된 실험 결과가 특정 환경에 국한되어 일반화 가능성에 대한 추가적인 검증 필요.

[PDF 보기](https://arxiv.org/pdf/2504.21326)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).