본 논문은 사용자의 상황과 감정을 이해하고 공감하는 반응을 생성하는 공감적 응답 생성 프레임워크인 EmpRL을 제안합니다. 기존의 최대 우도 추정 방식의 한계를 극복하기 위해 강화 학습을 활용하여 생성된 응답과 목표 응답 간의 공감 수준을 일치시키는 데 중점을 둡니다. EmpRL은 사전 훈련된 T5 모델을 생성기로 사용하며, 감정 반응, 해석, 탐색이라는 세 가지 공감 의사소통 메커니즘을 포함하는 공감 보상 함수를 통해 강화 학습을 수행합니다. 근접 정책 최적화 알고리즘을 사용하여 정책을 미세 조정하고, 자동 및 사람 평가를 통해 생성된 응답의 질 향상과 목표 응답과의 공감 수준 유사성 향상을 보여줍니다. 생성된 공감적 응답은 정서적 및 인지적 측면 모두를 포함합니다.