다빈치 코드 게임을 대상으로 다양한 인공지능(AI) 패러다임의 효과를 조사한 논문입니다. Transformer 기반 모델, 여러 대규모 언어 모델(LLM, Gemini, DeepSeek, GPT 등), 그리고 Proximal Policy Optimization (PPO) 기반 모델 세 가지 에이전트 아키텍처를 개발하고 평가했습니다. PPO 기반 에이전트가 58.5%의 승률을 기록하며 LLM 기반 에이전트보다 뛰어난 성능을 보였습니다. 복잡한 연역적 과제에서 심층 강화 학습의 강점과 LLM의 한계를 분석하여, 숨겨진 정보와 다단계 논리적 추론이 필요한 게임에서의 효과적인 에이전트 설계 및 다양한 AI 접근 방식의 비교 우위에 대한 통찰력을 제공합니다.