[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Các tác nhân chủ động cho việc tạo văn bản thành hình ảnh nhiều lượt trong điều kiện không chắc chắn

Created by
  • Haebom

Tác giả

Meera Hahn, Wenjun Zeng, Nithish Kannen, Rich Galt, Kartikeya Badola, Been Kim, Zi Wang

Phác thảo

Bài báo này đề cập đến vấn đề các gợi ý của người dùng từ các mô hình AI tạo sinh thường không rõ ràng, dẫn đến sự không khớp giữa ý định của người dùng và sự hiểu biết của mô hình. Để giải quyết vấn đề này, chúng tôi đề xuất một nguyên mẫu tác nhân chuyển đổi văn bản thành hình ảnh (T2I) có khả năng chủ động đặt câu hỏi khi không chắc chắn trong quá trình tạo văn bản thành hình ảnh (T2I), hiểu được sự không chắc chắn về ý định của người dùng và trình bày nó dưới dạng biểu đồ niềm tin có thể chỉnh sửa. Chúng tôi tiến hành các thử nghiệm trên ImageInWords, COCO và bộ dữ liệu DesignBench mới được các nhà nghiên cứu tạo ra, và chứng minh rằng tác nhân T2I được đề xuất đạt được điểm VQAScore cao hơn ít nhất 2 lần so với thế hệ T2I hiện có. Hơn nữa, các nghiên cứu có sự tham gia của con người cho thấy hơn 90% người dùng đánh giá tác nhân và biểu đồ niềm tin là hữu ích cho các tác vụ T2I của họ. Mã nguồn và DesignBench được mã nguồn mở trên GitHub.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một phương pháp mới để giải quyết những khó khăn trong việc tạo T2I do lời nhắc không rõ ràng của người dùng.
Trình bày một cách hiệu quả để liên kết ý định của người dùng với sự hiểu biết của mô hình thông qua biểu đồ niềm tin và câu hỏi chủ động.
Đã Chứng minh hiệu suất cải thiện VQAScore ít nhất gấp 2 lần so với thế hệ T2I hiện tại.
Sự hài lòng cao của người dùng được xác nhận thông qua nghiên cứu người dùng.
Công bố bộ dữ liệu chuẩn mới, DesignBench.
Limitations:
Tác nhân được trình bày là nguyên mẫu và cần nghiên cứu thêm để có thể ứng dụng vào thực tế.
Hiện tại, nghiên cứu chỉ giới hạn ở các tập dữ liệu hình ảnh-văn bản và cần nghiên cứu về khả năng mở rộng sang các phương thức khác.
Khi độ phức tạp của biểu đồ niềm tin tăng lên, khả năng hiểu biết của người dùng có thể giảm xuống.
Kết quả thử nghiệm trên các tập dữ liệu quy mô lớn cần được trình bày.
👍