ORBIT는 고위험 의료 대화(high-stakes medical dialogue)를 위한 개방형 루브릭 기반 점진적 학습 프레임워크입니다. 애매모호하고 상황 의존적인 피드백으로 인해 강화 학습(RL)이 어려운 의료 상담과 같은 개방형 도메인에서, ORBIT는 합성 대화 생성과 점진적 RL을 위한 적응형 가이드 역할을 하는 동적으로 구성된 루브릭을 통합합니다. 외부 의료 지식 기반이나 수작업 규칙 세트에 의존하는 대신, ORBIT는 루브릭 기반 피드백을 사용하여 학습 과정을 이끕니다. 범용 지침 따르기 LLM으로 구현될 수 있는 judge component를 활용하여 특정 작업에 대한 미세 조정의 필요성을 제거합니다. Qwen3-4B-Instruct 모델에 적용했을 때, ORBIT는 단 2,000개의 훈련 샘플을 사용하여 HealthBench-Hard 점수를 7.0에서 27.5로 높여, 이 규모의 모델에 대해 SOTA 성능을 달성했습니다. 더 큰 루브릭 데이터 세트를 통해, ORBIT 훈련 모델은 HealthBench-Hard에서 가장 강력한 오픈 소스 기준선과 경쟁합니다.