Sign In

Do Math Reasoning LLMs Help Predict the Impact of Public Transit Events?

Created by
  • Haebom
Category
Empty

저자

Bowen Fang, Ruijian Zha, Xuan Di

개요

본 논문은 비구조화된 텍스트 알림으로부터 대중교통 사고 지속 시간을 예측하는 어려운 과제에 대한 연구를 제시합니다. 특히, 표준 Supervised Fine-Tuning(SFT)의 한계를 극복하기 위해, Reinforcement Learning from Verifiable Rewards (RLVR)를 대중교통 운영의 예측 문제에 적용합니다. 이를 위해, 연속적인 오차 마진 내에서 부분적인 보상을 제공하는 허용 기반 형상 보상 함수를 도입하고, 뉴욕시 MTA 서비스 알림 데이터셋을 사용하여 RLVR 프레임워크를 평가합니다. 결과적으로, 일반적인 instruction-tuned LLMs가 전문적인 수학적 사고 모델보다 우수한 성능을 보였으며, 형상 보상 설계가 중요함을 입증했습니다. 또한 RLVR 접근 방식이 5분 정확도(Acc@5)에서 기존 최강 베이스라인 대비 35% 향상을 달성했습니다.

시사점, 한계점

시사점:
RLVR을 현실 세계의 노이즈가 있는 예측 문제에 성공적으로 적용할 수 있음을 보여줌.
연속적인 문제의 특성을 반영하는 검증자 설계가 중요함을 입증.
일반적인 instruction-tuned LLMs가 특화된 모델보다 우수한 성능을 보임.
5분 정확도(Acc@5)에서 기존 베이스라인 대비 상당한 성능 향상을 달성.
한계점:
클래식 회귀 모델이 전체 MAE 또는 MSE를 최소화하는 데 더 우수함.
RLVR 적용 시 문제의 연속적인 특성을 반영하는 검증자 설계가 필요함.
👍