DALL·E là phiên bản tham số 12 tỷ của GPT-3 (mở trong cửa sổ mới) được đào tạo để tạo hình ảnh từ mô tả văn bản, sử dụng tập dữ liệu các cặp văn bản-hình ảnh. Chúng tôi thấy rằng nó có nhiều khả năng đa dạng, bao gồm tạo phiên bản động vật và đồ vật được nhân cách hóa, kết hợp các khái niệm không liên quan theo những cách hợp lý, hiển thị văn bản và áp dụng các phép biến đổi cho hình ảnh hiện có.
GPT-3 cho thấy ngôn ngữ có thể được sử dụng để hướng dẫn một mạng nơ-ron lớn thực hiện nhiều tác vụ tạo văn bản khác nhau. Hình ảnh GPT cho thấy cùng loại mạng nơ-ron cũng có thể được sử dụng để tạo hình ảnh có độ trung thực cao. Chúng tôi mở rộng những phát hiện này để chứng minh rằng việc thao tác các khái niệm trực quan thông qua ngôn ngữ hiện đã nằm trong tầm tay.
Tổng quan
Giống như tài khoản ChatGPT-4, DALL·E là một mô hình ngôn ngữ biến đổi. Nó nhận cả văn bản và hình ảnh dưới dạng một luồng dữ liệu duy nhất chứa tới 1280 mã thông báo và được đào tạo bằng cách sử dụng khả năng tối đa để tạo ra tất cả các mã thông báo, từng cái một.
Quy trình đào tạo này cho phép DALL·E không chỉ tạo ra hình ảnh từ đầu mà còn tái tạo bất kỳ vùng hình chữ nhật nào của hình ảnh hiện có kéo dài đến góc dưới bên phải theo cách nhất quán với lời nhắc văn bản.
Chúng tôi nhận ra rằng công việc liên quan đến các mô hình sinh sản có tiềm năng tạo ra những tác động xã hội đáng kể và rộng rãi. Trong tương lai, chúng tôi có kế hoạch phân tích cách các mô hình như DALL·E liên quan đến các vấn đề xã hội như tác động kinh tế đến một số quy trình và nghề nghiệp làm việc, khả năng thiên vị trong kết quả đầu ra của mô hình và những thách thức về đạo đức dài hạn do công nghệ này ngụ ý.
Khả năng
Chúng tôi thấy rằng DALL·E có thể tạo ra những hình ảnh hợp lý cho nhiều loại câu khác nhau, khám phá cấu trúc thành phần của ngôn ngữ. Chúng tôi minh họa điều này bằng một loạt hình ảnh tương tác trong phần tiếp theo. Các mẫu được hiển thị cho từng chú thích trong hình ảnh được lấy bằng cách lấy 32 trong số 512 sau khi xếp hạng lại bằng CLIP , nhưng chúng tôi không sử dụng bất kỳ thao tác chọn lọc thủ công nào, ngoại trừ hình thu nhỏ và hình ảnh độc lập xuất hiện bên ngoài.
Kiểm soát các thuộc tính
Chúng tôi kiểm tra khả năng của DALL·E trong việc sửa đổi một số thuộc tính của đối tượng cũng như số lần nó xuất hiện.
Vẽ nhiều đối tượng
Việc kiểm soát đồng thời nhiều đối tượng, thuộc tính của chúng và mối quan hệ không gian của chúng đặt ra một thách thức mới. Ví dụ, hãy xem xét cụm từ “một con nhím đội mũ đỏ, găng tay vàng, áo sơ mi xanh và quần xanh lá cây”. Để diễn giải đúng câu này, DALL·E không chỉ phải ghép đúng từng loại trang phục với con vật mà còn phải hình thành các mối liên kết (mũ, đỏ), (găng tay, vàng), (áo sơ mi, xanh) và (quần, xanh lá cây) mà không trộn lẫn chúng với nhau
Chúng tôi kiểm tra khả năng của DALL·E trong việc định vị tương đối, xếp chồng các đối tượng và kiểm soát nhiều thuộc tính.
Mặc dù DALL·E cung cấp một số mức độ kiểm soát đối với các thuộc tính và vị trí của một số ít đối tượng, tỷ lệ thành công có thể phụ thuộc vào cách diễn đạt chú thích. Khi có nhiều đối tượng hơn được giới thiệu, DALL·E dễ gây nhầm lẫn giữa các mối liên hệ giữa các đối tượng và màu sắc của chúng, và tỷ lệ thành công giảm mạnh. Chúng tôi cũng lưu ý rằng DALL·E dễ bị sai lệch khi diễn đạt lại chú thích trong các tình huống này: các chú thích thay thế, tương đương về mặt ngữ nghĩa thường không mang lại cách diễn giải chính xác.
Hình dung phối cảnh và tính ba chiều
Chúng tôi thấy rằng DALL·E cũng cho phép kiểm soát góc nhìn của một cảnh và phong cách 3D mà cảnh đó được hiển thị.
Để tiến xa hơn, chúng tôi kiểm tra khả năng của DALL·E trong việc vẽ đi vẽ lại đầu của một nhân vật nổi tiếng ở mỗi góc từ một chuỗi các góc cách đều nhau và thấy rằng chúng tôi có thể khôi phục lại hình ảnh động mượt mà của đầu đang quay.
DALL·E dường như có thể áp dụng một số loại biến dạng quang học cho các cảnh, như chúng ta thấy với các tùy chọn “chế độ xem ống kính mắt cá” và “toàn cảnh hình cầu”. Điều này thúc đẩy chúng tôi khám phá khả năng tạo ra phản xạ của nó.
Hình dung cấu trúc bên trong và bên ngoài
Các mẫu từ phong cách "cực kỳ cận cảnh" và "tia X" đã dẫn chúng tôi khám phá sâu hơn khả năng tái hiện cấu trúc bên trong bằng chế độ xem cắt ngang và cấu trúc bên ngoài bằng ảnh chụp cận cảnh của DALL·E.
Suy ra các chi tiết theo ngữ cảnh
Nhiệm vụ dịch văn bản thành hình ảnh không được chỉ định rõ ràng: một chú thích duy nhất thường tương ứng với vô số hình ảnh hợp lý, do đó hình ảnh không được xác định duy nhất. Ví dụ, hãy xem xét chú thích "bức tranh về một con chuột lang nước ngồi trên một cánh đồng lúc mặt trời mọc". Tùy thuộc vào hướng của con chuột lang nước, có thể cần phải vẽ bóng, mặc dù chi tiết này không bao giờ được đề cập rõ ràng. Chúng tôi khám phá khả năng giải quyết tình trạng không được chỉ định rõ ràng của DALL·E trong ba trường hợp: thay đổi phong cách, bối cảnh và thời gian; vẽ cùng một đối tượng trong nhiều tình huống khác nhau; và tạo ra hình ảnh của một đối tượng có văn bản cụ thể được viết trên đó.
Với các mức độ tin cậy khác nhau, DALL·E cung cấp quyền truy cập vào một tập hợp con các khả năng của công cụ kết xuất 3D thông qua ngôn ngữ tự nhiên. Nó có thể kiểm soát độc lập các thuộc tính của một số lượng nhỏ các đối tượng và ở một mức độ hạn chế, số lượng đối tượng và cách chúng được sắp xếp liên quan đến nhau. Nó cũng có thể kiểm soát vị trí và góc mà cảnh được kết xuất và có thể tạo ra các đối tượng đã biết theo các thông số kỹ thuật chính xác về góc và điều kiện ánh sáng.
Không giống như công cụ kết xuất 3D, trong đó dữ liệu đầu vào phải được chỉ định rõ ràng và chi tiết, DALL·E thường có thể "điền vào chỗ trống" khi chú thích ngụ ý rằng hình ảnh phải chứa một chi tiết nhất định không được nêu rõ.
Bản chất cấu thành của ngôn ngữ cho phép chúng ta kết hợp các khái niệm để mô tả cả những thứ thực và tưởng tượng. Chúng tôi thấy rằng DALL·E cũng có khả năng kết hợp các ý tưởng khác nhau để tổng hợp các đối tượng, một số trong số đó không có khả năng tồn tại trong thế giới thực. Chúng tôi khám phá khả năng này trong hai trường hợp: chuyển các đặc điểm từ nhiều khái niệm khác nhau sang động vật và thiết kế sản phẩm bằng cách lấy cảm hứng từ các khái niệm không liên quan.
Minh họa động vật
Trong phần trước, chúng ta đã khám phá khả năng kết hợp các khái niệm không liên quan của DALL·E khi tạo ra hình ảnh của các vật thể trong thế giới thực. Ở đây, chúng ta khám phá khả năng này trong bối cảnh nghệ thuật, dành cho ba loại hình minh họa: phiên bản nhân cách hóa của động vật và đồ vật, chimera động vật và biểu tượng cảm xúc.
Suy luận trực quan Zero-shot
GPT-3 có thể được hướng dẫn thực hiện nhiều loại nhiệm vụ chỉ từ một mô tả và một gợi ý để tạo ra câu trả lời được cung cấp trong lời nhắc của nó, mà không cần bất kỳ đào tạo bổ sung nào. Ví dụ, khi được nhắc với cụm từ "đây là câu 'một người dắt chó đi dạo trong công viên' được dịch sang tiếng Pháp:", GPT-3 trả lời "un homme qui promène son chien dans le parc." Khả năng này được gọi là lý luận zero-shot. Chúng tôi thấy rằng DALL·E mở rộng khả năng này sang phạm vi thị giác và có thể thực hiện một số loại nhiệm vụ dịch hình ảnh sang hình ảnh khi được nhắc đúng cách.
Chúng tôi không lường trước được khả năng này sẽ xuất hiện và không thực hiện bất kỳ thay đổi nào đối với mạng nơ-ron hoặc quy trình đào tạo để khuyến khích khả năng này. Được thúc đẩy bởi những kết quả này, chúng tôi đo lường năng khiếu của DALL·E đối với các vấn đề lý luận tương tự bằng cách kiểm tra nó trên các ma trận lũy tiến của Raven, một bài kiểm tra IQ trực quan được sử dụng rộng rãi vào thế kỷ 20.
Chúng tôi thấy rằng DALL·E đã học về các sự kiện địa lý, địa danh và khu phố. Kiến thức của nó về các khái niệm này chính xác một cách đáng ngạc nhiên theo một số cách và sai sót theo những cách khác.
Kiến thức thời gian
Ngoài việc khám phá kiến thức của DALL·E về các khái niệm thay đổi theo không gian, chúng ta còn khám phá kiến thức của DALL·E về các khái niệm thay đổi theo thời gian.
Tóm tắt về cách tiếp cận và công việc trước đây
DALL·E là một bộ chuyển đổi chỉ giải mã đơn giản, nhận cả văn bản và hình ảnh dưới dạng một luồng duy nhất gồm 1280 mã thông báo—256 cho văn bản và 1024 cho hình ảnh—và mô hình hóa tất cả chúng một cách tự hồi quy. Mặt nạ chú ý tại mỗi lớp trong số 64 lớp tự chú ý của nó cho phép mỗi mã thông báo hình ảnh chú ý đến tất cả các mã thông báo văn bản. DALL·E sử dụng mặt nạ nhân quả chuẩn cho các mã thông báo văn bản và sự chú ý thưa thớt cho các mã thông báo hình ảnh với mẫu chú ý hàng, cột hoặc tích chập, tùy thuộc vào lớp. Chúng tôi cung cấp thêm chi tiết về kiến trúc và quy trình đào tạo trong bài báo của mình (mở trong cửa sổ mới).
Tổng hợp văn bản thành hình ảnh đã là một lĩnh vực nghiên cứu tích cực kể từ công trình tiên phong của Reed và cộng sự, có phương pháp sử dụng GAN có điều kiện trên nhúng văn bản. Các nhúng được tạo ra bởi một bộ mã hóa được đào tạo trước bằng cách sử dụng mất mát tương phản, không giống như CLIP. StackGAN và StackGAN++ sử dụng GAN đa thang đo để tăng độ phân giải hình ảnh và cải thiện độ trung thực của hình ảnh. AttnGAN kết hợp sự chú ý giữa các đặc điểm văn bản và hình ảnh và đề xuất mất mát khớp đặc điểm văn bản-hình ảnh tương phản như một mục tiêu phụ trợ. Điều này thật thú vị khi so sánh với việc xếp hạng lại của chúng tôi bằng CLIP, được thực hiện ngoại tuyến. Các công trình khác kết hợp các nguồn giám sát bổ sung trong quá trình đào tạo để cải thiện chất lượng hình ảnh. Cuối cùng, công trình của Nguyen và cộng sự và Cho và cộng sự khám phá các chiến lược dựa trên lấy mẫu để tạo hình ảnh tận dụng các mô hình phân biệt đa phương thức được đào tạo trước.
Tương tự như lấy mẫu từ chối được sử dụng trong VQVAE-2(mở trong cửa sổ mới), chúng tôi sử dụng CLIP để xếp hạng lại 32 mẫu hàng đầu trong số 512 mẫu cho mỗi chú thích trong tất cả các hình ảnh tương tác. Quy trình này cũng có thể được coi là một loại tìm kiếm có hướng dẫn ngôn ngữ và có thể có tác động đáng kể đến chất lượng mẫu.
Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ