Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

DreamStory: Hình dung câu chuyện miền mở bằng phương pháp khuếch tán nhất quán đa chủ đề do LLM hướng dẫn

Created by
  • Haebom

Tác giả

Huiguo He, Huân Yang, Zixi Tuo, Yuan Chu, Qiuyue Wang, Yuhang Zhang, Zeyu Liu, Wenhao Huang, Hongyang Chao, Jian Yin

Phác thảo

DreamStory trình bày một khuôn khổ trực quan hóa câu chuyện miền mở, tận dụng Mô hình Ngôn ngữ Quy mô Lớn (LLM) và Mô hình Khuếch tán Nhất quán Đa Chủ thể (MSD) tiên tiến. LLM tạo ra các gợi ý mô tả cho các chủ đề và cảnh liên quan đến câu chuyện, đồng thời chú thích các chủ đề của từng cảnh để hỗ trợ việc tạo chủ đề nhất quán. MSD sử dụng các mô tả chủ đề chi tiết do LLM tạo ra để tạo chân dung chủ đề và sử dụng các chân dung này cùng thông tin văn bản tương ứng làm điểm neo đa phương thức (hướng dẫn). MSD đảm bảo tính nhất quán về mặt hình thức và ngữ nghĩa với hình ảnh và văn bản tham chiếu, bao gồm các mô-đun Chú ý Tự thân Tương hỗ Có Mặt nạ (MMSA) và Chú ý Chéo Tương hỗ Có Mặt nạ (MMCA), đồng thời sử dụng cơ chế che giấu để ngăn ngừa việc trộn lẫn các chủ đề. Nghiên cứu này đã thiết lập chuẩn mực DS-500 để đánh giá hiệu suất và xác minh hiệu quả của DreamStory thông qua các đánh giá chủ quan và khách quan.

Takeaways, Limitations

_____T93337____:
Một khuôn khổ trực quan hóa câu chuyện mới kết hợp LLM và MSD được trình bày.
Tạo ra hình ảnh hiệu quả duy trì tính nhất quán của nhiều chủ đề
Tiêu chuẩn mới DS-500 được giới thiệu để đánh giá hiệu suất trực quan hóa câu chuyện
Xác thực hiệu quả của DreamStory thông qua các đánh giá chủ quan và khách quan.
Limitations:
Cần có thêm nghiên cứu về quy mô và tính đa dạng của chuẩn mực DS-500.
Cần cải thiện hiệu suất trực quan hóa cho các câu chuyện phức tạp hoặc mơ hồ
ĐáNh giá hiệu suất tổng quát là cần thiết cho nhiều câu chuyện thực tế khác nhau.
👍