본 연구는 DD 5E 전투 시나리오를 활용하여 강화 학습(RL) 환경을 설계 및 구현하여, GPT-4o 및 LLaMA 3 8B와 같은 고급 대규모 언어 모델(LLM)로 제어되는 강력한 적대적 에이전트와의 상호 작용을 통해 소규모 RL 에이전트를 훈련하는 것을 목표로 합니다. 소규모 에이전트에는 심층 Q 네트워크(DQN)를 사용하며, 역동적이고 예측 불가능한 전투 시나리오를 시뮬레이션함으로써 전략적 AI 개발을 위한 테스트베드이자 교육 도구 역할을 합니다. LLM을 RL 프레임워크에 성공적으로 통합하여 전략적 의사결정 프로세스를 향상시켰으며, RL 에이전트가 일반적인 지표에서는 LLM 제어 적대 에이전트보다 우수하지만, LLM이 제공하는 전략적 심도가 이 복잡한 규칙 기반 환경에서 전반적인 AI 기능을 크게 향상시킨다는 것을 보여줍니다. 복잡한 환경을 숙달하고 적응형 전략을 개발하는 것에 대한 접근 방식의 참신성과 그 의미를 논의하고, AI 기반 상호 작용 시뮬레이션의 잠재적 혁신을 제시합니다. LLM 통합을 통해 더욱 강력하고 적응력 있는 AI 시스템을 만들 수 있음을 보여주고, 추가 연구 및 교육 응용 프로그램에 대한 귀중한 통찰력을 제공하는 것을 목표로 합니다.