Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

GPT tư nhân cho thử nghiệm theo định hướng LLM trong phát triển phần mềm và học máy

Created by
  • Haebom

Tác giả

Jakub Jagielski, Consuelo Rojas, Markus Abel

Phác thảo

Bài báo này nghiên cứu khả năng của Private GPT (GPT) trong việc tự động tạo mã kiểm thử thực thi từ các yêu cầu. Cụ thể, chúng tôi trình bày một phương pháp cho phép chủ sở hữu sản phẩm hoặc trí tuệ kinh doanh (BI) trực tiếp tạo ra các tiêu chí có thể kiểm thử bằng LLM, sử dụng các tiêu chí chấp nhận được chuẩn hóa như một phần của các sử thi hoặc câu chuyện thường được sử dụng trong các quy trình phát triển hiện đại. Chúng tôi đánh giá chất lượng của các bài kiểm thử được tạo ra bằng hai phương pháp: LLM tạo mã trực tiếp từ các yêu cầu và một bước trung gian sử dụng cú pháp Gherkin. Kết quả cho thấy quy trình hai bước mang lại kết quả tốt hơn về khả năng đọc hiểu của người dùng và các phương pháp lập trình tốt nhất (số dòng mã và việc sử dụng các thư viện bổ sung thường được sử dụng trong kiểm thử). Chúng tôi đánh giá cụ thể hiệu quả của các lời nhắc trong hai tình huống: chương trình "Hello World" và mô hình phân loại số, chứng minh rằng các lời nhắc có cấu trúc dẫn đến đầu ra kiểm thử chất lượng cao hơn.

Takeaways, Limitations

Takeaways:
Chúng tôi chứng minh rằng LLM có thể được sử dụng để tự động tạo mã kiểm tra dựa trên yêu cầu.
Chúng tôi chứng minh rằng quy trình hai bước sử dụng cú pháp Gherkin có hiệu quả trong việc cải thiện chất lượng mã thử nghiệm.
Chúng tôi nhận thấy rằng lời nhắc có cấu trúc có tác động đáng kể đến chất lượng tạo mã kiểm tra.
Có khả năng hợp lý hóa quy trình tạo tiêu chí thử nghiệm cho chủ sở hữu sản phẩm hoặc thông tin kinh doanh.
Limitations:
Các kịch bản được sử dụng để đánh giá bị hạn chế (chương trình "Hello World" đơn giản và mô hình phân loại số).
Cần có thêm nghiên cứu về khả năng tổng quát hóa cho các loại yêu cầu và hệ thống phức tạp khác nhau.
Thiếu giải thích cụ thể về đặc điểm và hạn chế của GPT tư nhân.
Thiếu số liệu định lượng để có "kết quả tốt hơn" (chỉ dựa vào đánh giá chủ quan về khả năng đọc hiểu của con người và các phương pháp mã hóa tốt nhất).
👍