본 논문은 대규모 언어 모델(LLM) 기반 여행 계획의 현실적인 평가를 위한 새로운 벤치마크인 TripTailor를 제시합니다. 기존 벤치마크의 한계점인 비현실적인 시뮬레이션 데이터 사용과 제약 조건 위주의 평가 방식을 극복하고자, 50만 개 이상의 실제 관광 명소(POI) 데이터와 4,000개에 가까운 다양한 실제 여행 일정 데이터를 포함하는 TripTailor를 개발했습니다. 실험 결과, 최신 LLM들 중 10% 미만만이 인간 수준의 여행 계획 성능을 달성하는 것으로 나타났으며, 여행 계획의 실행 가능성, 합리성, 개인 맞춤 설정 등의 중요한 과제를 확인했습니다. TripTailor는 사용자의 요구를 이해하고 실용적인 여행 일정을 생성하는 여행 계획 에이전트 개발을 촉진할 것으로 기대됩니다. 소스 코드와 데이터셋은 깃헙에서 공개됩니다.