본 논문은 비구조화된 텍스트 알림으로부터 대중교통 사고 지속 시간을 예측하는 어려운 과제에 대한 연구를 제시합니다. 특히, 표준 Supervised Fine-Tuning(SFT)의 한계를 극복하기 위해, Reinforcement Learning from Verifiable Rewards (RLVR)를 대중교통 운영의 예측 문제에 적용합니다. 이를 위해, 연속적인 오차 마진 내에서 부분적인 보상을 제공하는 허용 기반 형상 보상 함수를 도입하고, 뉴욕시 MTA 서비스 알림 데이터셋을 사용하여 RLVR 프레임워크를 평가합니다. 결과적으로, 일반적인 instruction-tuned LLMs가 전문적인 수학적 사고 모델보다 우수한 성능을 보였으며, 형상 보상 설계가 중요함을 입증했습니다. 또한 RLVR 접근 방식이 5분 정확도(Acc@5)에서 기존 최강 베이스라인 대비 35% 향상을 달성했습니다.