본 논문은 현실 세계 적용 가능성이 제한적인 기존 대규모 언어 모델(LLM) 기반 여행 계획 평가 벤치마크의 한계를 해결하기 위해, 공공 교통 시간표, 이벤트 가능 여부, 다양한 관광 명소 범주 및 사용자 페르소나를 통합한 새로운 데이터셋 TripCraft를 제시합니다. TripCraft는 공간-시간적 일관성을 갖추고 현실 세계의 제약 조건을 반영하여 더욱 현실적인 여행 계획 생성을 가능하게 합니다. 또한, 기존의 이진 검증 방식을 넘어, 시간적 식사 점수, 시간적 관광 명소 점수, 공간 점수, 순서 점수, 페르소나 점수 등 다섯 가지 연속형 평가 지표를 제안하여 여정의 질을 다차원적으로 평가합니다. 7일 여행 시나리오에서 매개변수 정보를 활용하여 시간적 식사 점수를 61%에서 80%로 향상시켰으며, LLM 기반 개인 맞춤형 여행 계획을 위한 새로운 벤치마크를 제시합니다. 데이터셋과 코드는 수락 후 공개될 예정입니다.