본 논문은 대규모 언어 모델(LLM)을 능동적이고 목표 지향적인 파트너로 만드는 것을 목표로 한다. 특히, 복잡한 사용자 역학을 모델링할 필요 없이 오프라인 전문가 데이터로부터 직접 능동적인 대화 에이전트를 학습하고 배포하는 일반적인 시뮬레이터 없는 프레임워크인 \texttt{Learn-to-Ask}를 제시한다. 이 프레임워크는 전문가 궤적의 관찰된 미래를 활용하여 각 턴마다 밀도 있는 보상 신호를 추론하고, 질문 내용과 중단 시점을 제어하는 구조화된 \texttt{(action, state_assessment)} 튜플을 출력하도록 정책을 학습시킨다. 또한, 자동 채점자 보정 파이프라인을 통해 LLM 기반 보상 모델에서 노이즈를 제거한다. 실제 의료 데이터셋을 사용한 실험에서 \texttt{Learn-to-Ask}의 효과를 입증했으며, 실제 대규모 온라인 AI 서비스에 성공적으로 배포되어 인간 전문가보다 뛰어난 성능을 달성했다.