본 논문은 격투 게임에서 플레이어의 즐거움을 향상시키는 심층 강화 학습(DRL) 에이전트를 개발하는 것을 목표로 합니다. 이를 위해, 다양하고 숙련된 DRL 에이전트를 생성하는 작업 지향 네트워크 아키텍처, 모듈화된 보상 함수, 그리고 하이브리드 훈련을 사용하는 2단계 에이전트(TTA) 시스템을 제안합니다. TTA의 두 번째 단계에서는 대규모 언어 모델 하이퍼 에이전트가 플레이어의 데이터와 피드백을 활용하여 적절한 DRL 상대를 동적으로 선택합니다. 스트리트 파이터 II를 사용한 실험 결과, 기존 방법 대비 고급 기술 실행률이 64.36%에서 156.36%로 향상되었으며, 훈련된 에이전트는 다양한 게임 플레이 스타일을 보여주었습니다. 소규모 사용자 연구를 통해 TTA 시스템의 효과성을 검증했습니다.