[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

HATS: Bộ kiểm tra tương tự tiếng Hindi để đánh giá lý luận trong các mô hình ngôn ngữ lớn

Created by
  • Haebom

Tác giả

Ashray Gupta, Rohan Joseph, Sunny Rai

Phác thảo

Trong bài báo này, chúng tôi trình bày một bộ dữ liệu mới, Bộ Kiểm tra Tương tự Tiếng Hindi (HATS), để đánh giá hiệu suất tương tự trong tiếng Hindi. HATS bao gồm 405 câu hỏi trắc nghiệm được lấy từ các kỳ thi của chính phủ Ấn Độ và được sử dụng để đánh giá hiệu suất tương tự của nhiều mô hình ngôn ngữ khác nhau. Trong bài báo này, chúng tôi đánh giá các chương trình Thạc sĩ Luật (LLM) đa ngôn ngữ hiện đại bằng cách sử dụng các chiến lược gợi ý khác nhau và phương pháp Chuỗi Tư duy (Chain of Thought) dựa trên lý thuyết nhận thức, đồng thời đề xuất một phương pháp để cải thiện hiệu suất mô hình trên các bài toán tương tự tiếng Hindi. Kết quả thực nghiệm cho thấy hiệu suất mô hình tốt nhất khi sử dụng gợi ý tiếng Anh, bất kể chiến lược gợi ý nào. Nghiên cứu này đề cập đến việc thiếu hụt nghiêm trọng các nguồn lực để đánh giá hiệu suất lập luận của chương trình Thạc sĩ Luật (LLM) bằng tiếng Hindi.

Takeaways, Limitations

Takeaways:
Chúng tôi cung cấp bộ dữ liệu HATS mới để đánh giá khả năng lập luận LLM bằng tiếng Hindi.
Chúng tôi chứng minh rằng phương pháp Chuỗi suy nghĩ có cơ sở góp phần cải thiện hiệu suất mô hình trên vấn đề suy luận tiếng Hindi.
Nó góp phần đánh giá khả năng tương tự của các LLM đa ngôn ngữ và phân tích khả năng khái quát hóa của họ trên nhiều ngôn ngữ.
Chúng tôi kiểm tra hiệu quả của các gợi ý bằng tiếng Anh và đề xuất hướng nghiên cứu trong tương lai.
Limitations:
Hiện tại, HATS chỉ giới hạn ở các câu hỏi trong Kỳ thi của Chính phủ Ấn Độ và có thể không phản ánh đầy đủ các loại phép so sánh đa dạng trong tiếng Hindi.
Loại và quy mô của LLM được sử dụng để đánh giá có thể bị hạn chế.
Phát hiện cho thấy lời nhắc bằng tiếng Anh hiệu quả nhất cho thấy cần phải xem xét đến sự thiên vị liên ngôn ngữ.
Cần có thêm nghiên cứu để khám phá khả năng tổng quát hóa của phương pháp Chuỗi tư duy có cơ sở.
👍