본 논문은 불완전한 정보 환경을 제공하는 협력 카드 게임인 하나비를 강화 학습(RL) 연구에 적용하여, 다양한 표 형태 및 심층 강화 학습 알고리즘의 성능을 비교 분석했습니다. 동일한 유형의 에이전트 간, 그리고 서로 다른 유형의 에이전트 간의 경기 결과를 분석하여 특정 에이전트 조합에서 최고 점수를 기록하는 경우와 상대 에이전트의 행동에 적응하여 평균 점수가 높은 경우를 확인했습니다. 각 알고리즘이 최적의 성능을 발휘하는 조건을 정량화하고, 서로 다른 유형의 에이전트 간 상호 작용을 분석하여, 시간차(TD) 알고리즘이 표 형태 에이전트보다 전반적인 성능과 플레이 유형의 균형이 더 우수함을 발견했습니다. 특히, 표 형태의 Expected SARSA와 심층 Q-Learning 에이전트가 가장 좋은 성능을 보였습니다.