Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

CTourLLM: Nâng cao kiến ​​thức về du lịch Trung Quốc của các chương trình LLM

Created by
  • Haebom

Tác giả

Qikai Wei, Mingzhi Yang, Jinqiang Wang, Wenwei Mao, Jiabo Xu, Huansheng Ning

Phác thảo

Bài báo này đề xuất CTourLLM, một mô hình ngôn ngữ quy mô lớn (LLM) chuyên về du lịch văn hóa Trung Quốc. Để giải quyết tình trạng thiếu hụt kiến ​​thức du lịch trong các LLM hiện có, chúng tôi xây dựng một bộ dữ liệu mới có tên là Cultour, bao gồm cơ sở dữ liệu kiến ​​thức du lịch, dữ liệu nhật ký du lịch và dữ liệu QA du lịch. Sử dụng bộ dữ liệu này, chúng tôi tinh chỉnh một mô hình dựa trên Qwen bằng phương pháp học có giám sát. Để đánh giá hiệu suất của CTourLLM, chúng tôi đề xuất một thước đo đánh giá mới có tên là Mức độ liên quan, Khả năng đọc và Tính khả dụng (RRA), và thực hiện cả đánh giá tự động và đánh giá của con người. Kết quả thử nghiệm cho thấy CTourLLM vượt trội hơn ChatGPT 1,21 trên thang điểm BLEU-1 và 1,54 trên thang điểm Rouge-L. Bộ dữ liệu Cultour được công khai.

Takeaways, Limitations

Takeaways:
Góp phần cải thiện các dịch vụ liên quan đến du lịch thông qua việc phát triển và xuất bản các chương trình LLM chất lượng cao chuyên về du lịch văn hóa Trung Quốc.
Xây dựng bộ dữ liệu mới, Cultour, để cung cấp nguồn tài nguyên cho nghiên cứu trong tương lai.
Trình bày các chỉ số mới để đánh giá hiệu suất LLM thông qua việc trình bày các tiêu chí đánh giá RRA.
Xác nhận tính hiệu quả của mô hình đề xuất thông qua hiệu suất được cải thiện so với ChatGPT.
Limitations:
Hiện nay chỉ tập trung vào du lịch văn hóa Trung Quốc, cần xem xét mở rộng sang các lĩnh vực khác.
Cần nghiên cứu thêm để xác định tính khách quan và khả năng khái quát của tiêu chí đánh giá RRA.
Cần xem xét thêm về quy mô và tính đa dạng của tập dữ liệu được sử dụng để đánh giá.
Hạn chế của các phương pháp đánh giá chỉ tập trung vào việc cải thiện điểm BLEU và ROUGE.
👍