강화 학습은 보상을 극대화하는 정책 학습에 집중해왔지만, 본 논문은 환경에 대한 다양한 질문에 답할 수 있는 추론 엔진으로 RL 시스템을 구축하는 새로운 패러다임을 제시한다. QDIN(Query Conditioned Deterministic Inference Networks)이라는 아키텍처를 도입하여 정책, 접근 가능성, 경로, 비교 등 다양한 유형의 질문을 처리하며, 각 질문 유형에 최적화된 특화된 신경 모듈을 사용한다. 실험 결과, 추론 정확도와 제어 성능 간의 탈동조화 현상을 발견했으며, 쿼리 특화 아키텍처가 통합 모델 및 사후 추출 방식보다 우수함을 입증했다. 이 연구는 쿼리 가능한 지식 기반으로 설계된 RL 시스템 연구 방향을 제시하며, 해석 가능성, 검증 및 인간-AI 협업에 기여할 수 있다.