본 논문은 계층적 구조에 의존하는 기존의 다중 충실도 강화 학습(Multi-fidelity Reinforcement Learning, RL) 프레임워크의 한계를 극복하기 위해 새로운 적응형 다중 충실도 RL 프레임워크를 제안합니다. 기존 방법들은 다양한 정확도와 비용을 가진 분석 모델을 통합하지만, 모델 계층 구조에 의존하여 설계 공간에서 이질적인 오류 분포를 가진 모델들의 경우 정책 학습의 분산을 증가시키는 문제가 있습니다. 본 논문에서 제안하는 방법은 여러 개의 이질적인 비계층적 저충실도 모델과 고충실도 모델을 동적으로 활용하여 고충실도 정책을 효율적으로 학습합니다. 저충실도 정책과 경험 데이터는 고충실도 정책과의 정렬을 기반으로 적응적으로 활용되어 효율적인 표적 학습을 수행합니다. 옥토콥터 설계 최적화 문제를 통해 제안된 방법의 효과를 검증하였으며, 기존의 계층적 다중 충실도 RL 방법에 비해 정책 학습의 분산을 크게 줄이고, 향상된 수렴과 일관된 고품질 솔루션을 얻을 수 있음을 보여줍니다. 또한, 모델 사용 일정을 수동으로 조정할 필요가 없어 계산 및 운영 부담을 줄입니다.