본 논문은 인간 사회에서 자주 발생하는 개인 이익과 집단 이익 간의 갈등을 해결하기 위해, 다중 에이전트 강화 학습(MARL) 기반의 새로운 방법을 제안한다. 기존의 보상, 가치, 정책 공유 또는 내재적 보상 설계와 달리, 에이전트 간 행동 제안 공유를 통해 집단적 수익을 극대화하는 정책을 학습하는 방법을 제시한다. 이 방법은 기존 방법들보다 개인 정보 노출을 줄이면서 효과적인 협력을 가능하게 한다. 이론적 분석을 통해 집단 목표와 개인 목표 간의 차이에 대한 경계를 설정하고, 제안 공유가 에이전트 행동을 집단 목표와 어떻게 정렬하는지 보여준다. 실험 결과는 제안된 알고리즘이 기존 방법들과 비교하여 경쟁력 있는 성능을 보임을 입증한다.