본 논문은 라벨 없는 유전체 데이터셋에서 가장 유용한 유전체 바이오마커를 식별하기 위한 유전자 패널 선택 전략을 제시한다. 기존의 전문 지식, 머신러닝 모델, 또는 휴리스틱 기반 반복적 최적화에 의존하는 방법들은 편향과 비효율성을 초래하여 중요한 생물학적 신호를 놓칠 수 있다는 한계점을 지닌다. 본 연구는 기존 유전자 선택 알고리즘의 앙상블 지식을 활용하여 초기 검색 공간을 안내하는 사전 지식을 설정하고, 전문가 행동으로 형성된 보상 함수를 통해 강화 학습을 통합하는 반복적인 유전자 패널 선택 전략을 제안한다. 이는 초기 경계에서 발생하는 편향을 완화하면서 강화 학습의 확률적 적응성을 활용한다. 포괄적인 비교 실험, 사례 연구 및 후속 분석을 통해 제안된 방법의 효율성과 정확성을 보여주며, 단일 세포 유전체 데이터 분석 발전에 기여할 가능성을 강조한다.