본 논문은 강화 학습(RL)이 치매 간호와 같은 적응형 헬스케어 중재에서 직면하는 과제를 해결하기 위해, 인과 관계 발견과 추론을 정책 최적화에 통합하는 새로운 프레임워크인 인과 구조 인식 강화 학습(CRL)을 제시합니다. CRL은 인간 행동 상태와 로봇 행동 간의 인과적 의존성을 설명하는 방향 비순환 그래프(DAG)를 학습하고 활용하여 보다 효율적이고 해석 가능하며 강력한 의사 결정을 가능하게 합니다. 시뮬레이션된 로봇 보조 인지 케어 시나리오에서 CRL 에이전트가 기존의 모델 프리 RL 기반 에이전트보다 더 높은 누적 보상을 달성하고, 바람직한 환자 상태를 더 일관되게 유지하며, 해석 가능한 임상적으로 일치하는 행동을 보임을 실험을 통해 입증합니다. 또한 다양한 가중 전략 및 하이퍼파라미터 설정에서도 CRL의 성능 우위가 유지됨을 보여줍니다. 경량 LLM 기반 배포를 통해, 추론된 상태를 행동에 매핑하는 고정 정책을 시스템 프롬프트에 포함하여 LLM 파인튜닝 없이 일관되고 지원적인 대화를 생성하는 방법을 제시합니다.