Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Kiểm tra trước khi tin tưởng: Áp dụng kiểm tra phần mềm để học tập trong ngữ cảnh đáng tin cậy

Created by
  • Haebom

Tác giả

Teeradaj Racharak, Chaiyong Ragkhitwetsagul, Chommakorn Sontesadisai, Thanwadee Sunetnanta

Phác thảo

Bài báo này trình bày MMT4NL, một khuôn khổ kiểm thử phần mềm dựa trên việc đánh giá độ tin cậy của học tập theo ngữ cảnh (ICL) trên các mô hình ngôn ngữ quy mô lớn (LLM). MMT4NL khai thác các ví dụ đối kháng và các kỹ thuật kiểm thử phần mềm để xác định các lỗ hổng trong ICL. Nó coi LLM như phần mềm và tạo ra các ví dụ đối kháng đã được sửa đổi từ một tập kiểm thử để định lượng và xác định lỗi trong các lời nhắc ICL. Các thí nghiệm về phân tích cảm xúc và các nhiệm vụ trả lời câu hỏi đã phát hiện ra nhiều lỗi ngôn ngữ khác nhau trong các LLM hiện đại.

Takeaways, Limitations

Takeaways:
Một khuôn khổ mới (MMT4NL) để đánh giá độ tin cậy ICL của LLM bằng các kỹ thuật kiểm thử phần mềm được trình bày.
Chúng tôi chứng minh rằng việc tạo ví dụ đối nghịch có thể xác định hiệu quả các lỗ hổng trong LLM.
Góp phần cải thiện hiệu suất của LLM bằng cách phát hiện nhiều lỗi ngôn ngữ khác nhau.
Limitations:
Khả năng áp dụng của MMT4NL chỉ giới hạn ở các nhiệm vụ phân tích cảm xúc và trả lời câu hỏi. Khả năng khái quát hóa cho các nhiệm vụ khác cần được xác minh.
Cần nghiên cứu thêm để xác định hiệu quả và khả năng mở rộng của khuôn khổ được đề xuất.
Cần phải xác thực thêm để đảm bảo có thể phát hiện được mọi loại lỗi ngôn ngữ.
👍