본 논문은 강화학습(RL) 모델과 분류 모델을 결합한 앙상블 강화학습 모델을 금융 거래 전략에 적용하는 포괄적인 연구를 제시합니다. A2C, PPO, SAC와 같은 RL 알고리즘과 SVM, 의사결정 트리, 로지스틱 회귀와 같은 전통적인 분류기를 결합하여 다양한 분류기 그룹이 위험-수익 균형을 개선하는 데 어떻게 통합될 수 있는지 조사합니다. 누적 수익률, 샤프 지수, 칼마르 지수, 최대 손실률과 같은 주요 금융 지표를 기준으로 다양한 앙상블 방법의 효과를 평가하고 개별 RL 모델과 비교합니다. 연구 결과, 앙상블 방법이 위험 조정 수익 측면에서 기본 모델보다 일관되게 우수한 성능을 보이며, 손실 관리 및 전반적인 안정성을 향상시키는 것으로 나타났습니다. 그러나 앙상블 성능이 분산 임계값(τ)의 선택에 민감하다는 점을 확인하여 최적의 성능을 달성하기 위해서는 동적 τ 조정이 중요함을 강조합니다. 이 연구는 적응형 의사결정을 위해 RL과 분류기를 결합하는 것의 가치를 강조하며, 금융 거래, 로봇 공학 및 기타 동적 환경에 대한 시사점을 제공합니다.