Feasibility-Guided Fair Adaptive Offline Reinforcement Learning for Medicaid Care Management
Created by
Haebom
저자
Sanjay Basu, Sadiq Y. Patel, Parth Sheth, Bhairavi Muralidharan, Namrata Elamaran, Aakriti Kinra, Rajaie Batniji
개요
본 논문은 그룹별 안전 임계값을 조정하여 피해를 줄이고 보호받는 하위 그룹 간에 선택된 공정성 목표(범위 또는 피해)를 균등하게 하는 오프라인 강화 학습 절차인 실행 가능성 기반 공정 적응형 강화 학습(FG-FARL)을 제시합니다. Medicaid 인구 건강 관리 프로그램의 익명화된 종단 데이터를 사용하여 행동 복제(BC) 및 HACO(하이브리드 적응형 순응 오프라인 강화 학습; 전역 순응 안전 기준)와 FG-FARL을 평가합니다. 부트스트랩 95% 신뢰 구간을 사용한 오프 정책 가치 추정치와 p-값을 사용한 하위 그룹 불균형 분석 결과를 보고합니다. FG-FARL은 기준선과 비교할 만한 가치를 달성하면서 공정성 지표를 개선하여 더 안전하고 공정한 의사 결정 지원을 위한 실용적인 방법을 제시합니다.
시사점, 한계점
•
시사점:
◦
FG-FARL은 오프라인 강화학습 환경에서 공정성과 안전성을 동시에 향상시키는 실용적인 방법을 제시합니다.
◦
그룹별 안전 임계값 조정을 통해 보호받는 하위 그룹 간의 불공정성을 줄일 수 있음을 보여줍니다.
◦
실제 의료 데이터를 사용한 실험을 통해 알고리즘의 실효성을 검증했습니다.
•
한계점:
◦
특정 의료 데이터셋에 대한 평가 결과이므로, 다른 도메인이나 데이터셋으로의 일반화 가능성은 추가 연구가 필요합니다.
◦
사용된 공정성 지표(coverage 또는 harm) 외 다른 공정성 개념에 대한 적용 가능성을 검토해야 합니다.