본 논문은 AI 에이전트와 사용자 간의 상호작용에서 사용자의 기대치 충족이 중요함을 강조하며, 사용자의 기대와 에이전트의 계획된 행동 간 차이를 해결하기 위한 새로운 학습 접근 방식인 Safe Explicable Policy Search (SEPS)를 제시합니다. SEPS는 안전성을 고려하여 설명 가능한 행동 생성을 위한 제약된 최적화 문제로 공식화되며, Constrained Policy Optimization과 Explicable Policy Search의 기능을 결합합니다. 안전성 제약 조건과 에이전트 모델 기반의 비최적성 기준 하에서 설명 가능성 점수를 극대화하는 것을 목표로 합니다. safety-gym 환경 및 물리적 로봇 실험을 통해 SEPS가 안전하고 설명 가능하며 효율적인 행동을 학습할 수 있음을 보여줍니다. 이는 인간-AI 협력에 실질적인 의미를 지닙니다.