[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

TD-EVAL: Xem xét lại Đánh giá Đối thoại theo Nhiệm vụ bằng cách Kết hợp Độ chính xác Cấp độ Lượt với So sánh Cấp độ Đối thoại

Created by
  • Haebom

Tác giả

Emre Can Acikgoz, Carl Guo, Suvodip Dey, Akul Datta, Takyoung Kim, Gokhan Tur, Dilek Hakkani-T ur

Phác thảo

Bài báo này đề cập đến những hạn chế của phương pháp đánh giá hệ thống đối thoại hướng nhiệm vụ (TOD) dựa trên mô hình ngôn ngữ quy mô lớn (LLM) hiện tại và đề xuất TD-EVAL, một khuôn khổ đánh giá mới, đánh giá cả cấp độ lượt nói và hội thoại. TD-EVAL đánh giá ba khía cạnh ở cấp độ lượt nói: sự gắn kết hội thoại, tính nhất quán kiến thức nền tảng và sự tuân thủ chính sách, đồng thời sử dụng TOD Agent Arena để đo lường chất lượng hội thoại thông qua so sánh từng cặp ở cấp độ hội thoại. Kết quả thử nghiệm sử dụng bộ dữ liệu MultiWOZ 2.4 và τ-Bench cho thấy TD-EVAL xác định hiệu quả các lỗi hội thoại mà các phép đo hiện có bỏ sót, đồng thời đạt được sự đồng thuận cao hơn với đánh giá của con người. Do đó, TD-EVAL mở ra một mô hình mới cho việc đánh giá hệ thống TOD trong tương lai.

Takeaways, Limitations

Takeaways:
Trình bày một khuôn khổ đánh giá hệ thống TOD mới (TD-EVAL) khắc phục được những hạn chế của các chỉ số đánh giá tự động hiện có
Tích hợp phân tích cấp độ xoay vòng và cấp độ hội thoại để cho phép đánh giá phức tạp hơn
Độ Tin cậy của đánh giá được cải thiện thông qua sự đồng thuận cao với phán đoán của con người
Thiết kế cắm và chạy để dễ dàng ứng dụng trong nghiên cứu trong tương lai
Limitations:
Cần nghiên cứu thêm để xác định xem ba chiều đánh giá cấp độ luân phiên của TD-EVAL (sự gắn kết trong hội thoại, tính nhất quán về kiến thức nền tảng và tuân thủ chính sách) có áp dụng được cho tất cả các hệ thống TOD hay không.
Cần có sự xác nhận bổ sung về hiệu quả và khả năng mở rộng của phương pháp so sánh từng cặp của TOD Agent Arena.
Vì đây là kết quả đánh giá hiệu suất cho một tập dữ liệu cụ thể nên cần phải xác minh khả năng khái quát hóa cho các tập dữ liệu khác hoặc nhiều hệ thống TOD khác nhau.
👍