Tạo hình ảnh có điều kiện văn bản phân cấp với CLIP tiềm ẩn

Tóm tắt

Các mô hình tương phản như CLIP đã được chứng minh là có thể học các biểu diễn hình ảnh mạnh mẽ, nắm bắt cả ngữ nghĩa và phong cách. Để tận dụng các biểu diễn này để tạo hình ảnh, chúng tôi đề xuất một mô hình hai giai đoạn: một giai đoạn trước tạo ra nhúng hình ảnh CLIP khi có chú thích văn bản và một bộ giải mã tạo ra hình ảnh có điều kiện dựa trên nhúng hình ảnh. Chúng tôi chứng minh rằng việc tạo biểu diễn hình ảnh một cách rõ ràng sẽ cải thiện tính đa dạng của hình ảnh với mức mất mát tối thiểu về tính chân thực của ảnh và độ tương đồng của chú thích. Bộ giải mã của chúng tôi có điều kiện dựa trên biểu diễn hình ảnh cũng có thể tạo ra các biến thể của hình ảnh, bảo toàn cả ngữ nghĩa và phong cách của hình ảnh, đồng thời thay đổi các chi tiết không cần thiết không có trong biểu diễn hình ảnh. Hơn nữa, không gian nhúng chung của CLIP cho phép thao tác hình ảnh theo hướng ngôn ngữ theo cách không có cảnh quay nào. Chúng tôi sử dụng các mô hình khuếch tán cho bộ giải mã và thử nghiệm cả mô hình tự hồi quy và khuếch tán cho giai đoạn trước, nhận thấy rằng mô hình sau hiệu quả hơn về mặt tính toán và tạo ra các mẫu chất lượng cao hơn.

Xem thêm: mua tài khoản Chat GPT Plustài tài khoản ChatGPT-4 chính hãng giá rẻ 

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !