# Null Counterfactual Factor Interactions for Goal-Conditioned Reinforcement Learning

### 저자

Caleb Chuck, Fan Feng, Carl Qi, Chang Shi, Siddhant Agarwal, Amy Zhang, Scott Niekum

### 개요

본 논문은 목표 조건 강화 학습(GCRL)에서 목표의 희소성 문제를 해결하는 데 효과적인 역추적 재라벨링(hindsight relabeling) 기법이 물체 중심 환경에서 효율성이 떨어지는 문제를 다룹니다. 특히 로봇 암이 특정 블록을 목표 위치로 옮기는 작업과 같이 물체 간 상호작용이 중요한 경우, 역추적 재라벨링은 블록과 상호작용하지 않는 궤적에도 높은 보상을 부여하여 학습을 어렵게 만듭니다. 이를 해결하기 위해, 본 논문은 상호작용을 고려한 역추적 재라벨링 기법인 HInt(Hindsight Relabeling using Interactions)를 제안합니다.  HInt는 상호작용을 정의하기 위해 귀무 반사실적(null counterfactual) 개념을 활용한 NCII(Null Counterfactual Interaction Inference)를 사용합니다. NCII는 학습된 모델을 통해 원인 물체가 없었을 경우 목표 물체의 동역학이 달라지는지 확인하여 상호작용을 추론합니다. 실험 결과, NCII는 간단한 선형 동역학 환경과 Robosuite, Robot Air Hockey, Franka Kitchen과 같은 로봇 환경에서 상호작용 추론 정확도를 크게 향상시켰으며, HInt는 샘플 효율성을 최대 4배까지 높였습니다.

### 시사점, 한계점

- **시사점:**

    - 물체 중심 환경에서 목표 조건 강화 학습의 샘플 효율성 향상에 기여하는 새로운 기법 HInt 제안.

    - 귀무 반사실적 개념을 이용한 상호작용 추론 기법 NCII를 통해 물체 간 상호작용을 효과적으로 인식.

    - Robosuite, Robot Air Hockey, Franka Kitchen 등 다양한 로봇 환경에서 HInt의 효과 검증.

    - 기존 역추적 재라벨링의 한계를 극복하고 샘플 효율성을 최대 4배까지 향상.

- **한계점:**

    - NCII의 정확도는 학습된 모델의 성능에 의존적일 수 있음.

    - 복잡한 물체 간 상호작용이나 다양한 물체 유형에 대한 일반화 성능은 추가 연구가 필요함.

    - 귀무 반사실적 개념을 기반으로 한 상호작용 정의가 모든 상황에 적용 가능한지에 대한 추가 검토 필요.

[PDF 보기](https://arxiv.org/pdf/2505.03172)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).