본 논문은 충돌하는 목표를 가진 환경에서 정책을 최적화하는 다중 목표 강화 학습(MORL)에 대한 연구를 제시합니다. 특히, 고정된 데이터셋에서 학습해야 하는 오프라인 환경에서 비선형 복지 기준을 직접 최적화하는 최초의 MORL 프레임워크인 FairDICE를 소개합니다. FairDICE는 분배 보정 추정을 활용하여 복지 극대화와 분포 규제를 결합하여 명시적인 선호 가중치나 광범위한 가중치 검색 없이 안정적이고 샘플 효율적인 학습을 가능하게 합니다.