Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới. Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận. Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.
DreamStory trình bày một khuôn khổ trực quan hóa câu chuyện miền mở, tận dụng Mô hình Ngôn ngữ Quy mô Lớn (LLM) và Mô hình Khuếch tán Nhất quán Đa Chủ thể (MSD) tiên tiến. LLM tạo ra các gợi ý mô tả cho các chủ đề và cảnh liên quan đến câu chuyện, đồng thời chú thích các chủ đề của từng cảnh để hỗ trợ việc tạo chủ đề nhất quán. MSD sử dụng các mô tả chủ đề chi tiết do LLM tạo ra để tạo chân dung chủ đề và sử dụng các chân dung này cùng thông tin văn bản tương ứng làm điểm neo đa phương thức (hướng dẫn). MSD đảm bảo tính nhất quán về mặt hình thức và ngữ nghĩa với hình ảnh và văn bản tham chiếu, bao gồm các mô-đun Chú ý Tự thân Tương hỗ Có Mặt nạ (MMSA) và Chú ý Chéo Tương hỗ Có Mặt nạ (MMCA), đồng thời sử dụng cơ chế che giấu để ngăn ngừa việc trộn lẫn các chủ đề. Nghiên cứu này đã thiết lập chuẩn mực DS-500 để đánh giá hiệu suất và xác minh hiệu quả của DreamStory thông qua các đánh giá chủ quan và khách quan.
Takeaways, Limitations
•
_____T93337____:
◦
Một khuôn khổ trực quan hóa câu chuyện mới kết hợp LLM và MSD được trình bày.
◦
Tạo ra hình ảnh hiệu quả duy trì tính nhất quán của nhiều chủ đề
◦
Tiêu chuẩn mới DS-500 được giới thiệu để đánh giá hiệu suất trực quan hóa câu chuyện
◦
Xác thực hiệu quả của DreamStory thông qua các đánh giá chủ quan và khách quan.
•
Limitations:
◦
Cần có thêm nghiên cứu về quy mô và tính đa dạng của chuẩn mực DS-500.
◦
Cần cải thiện hiệu suất trực quan hóa cho các câu chuyện phức tạp hoặc mơ hồ
◦
ĐáNh giá hiệu suất tổng quát là cần thiết cho nhiều câu chuyện thực tế khác nhau.