본 논문은 시간에 걸쳐 더해지지 않는 선호도(행동 다양성, 전문가 모방, 공정성, 안전 목표 등)를 고려한 순차적 의사결정 영역에서 볼록 마르코프 게임(convex Markov games)이라는 새로운 클래스를 제시합니다. 이 게임은 점유 측정값에 대한 일반적인 볼록 선호도를 허용하며, 무한 시간 지평선과 마르코프 게임보다 엄격히 높은 일반성에도 불구하고 순수 전략 내쉬 평형이 존재함을 보입니다. 또한, 착취 가능성의 상한에 대한 경사 하강법을 수행하여 평형을 경험적으로 근사할 수 있음을 보여줍니다. 실험을 통해 고전적인 반복 정규 형태 게임에 대한 새로운 해결책을 제시하고, 반복 비대칭 조정 게임에서 공정한 해결책을 찾으며, 로봇 창고 환경에서 장기적인 안전 행동을 우선시하는 것을 보여줍니다. 죄수의 딜레마에서 제안하는 알고리즘은 일시적인 모방을 활용하여 관찰된 인간의 플레이와 약간만 벗어나는 정책 프로파일을 찾으면서, 각 플레이어의 유틸리티를 높이고 착취 가능성을 세 자릿수 감소시킵니다.