0965 636 913
Chat ngay

Cách thức hoạt động của DALL-E 2 Chế độ xem toàn cảnh và Giao diện chi tiết

Mô hình đột phá DALL-E 2 của OpenAI đã xuất hiện vào đầu tháng 2 năm 2022, DALL E2 thiết lập một tiêu chuẩn mới cho việc tạo và thao tác hình ảnh.

Chỉ với một lời nhắc văn bản ngắn, DALL-E 2 có thể tạo ra những hình ảnh hoàn toàn mới kết hợp các đối tượng riêng biệt và không liên quan theo những cách hợp lý về mặt ngữ nghĩa, giống như những hình ảnh bên dưới được tạo bằng cách nhập lời nhắc "một bát súp là cổng thông tin đến một chiều không gian khác như nghệ thuật kỹ thuật số" .

DALL-E 2 thậm chí có thể sửa đổi các hình ảnh hiện có, tạo các biến thể của hình ảnh để duy trì các tính năng nổi bật của chúng và nội suy giữa hai hình ảnh đầu vào. Kết quả ấn tượng của DALL-E 2 khiến nhiều người thắc mắc chính xác làm thế nào một mô hình mạnh mẽ như vậy hoạt động ẩn dưới mui xe.

Trong bài viết này, chúng ta sẽ xem xét kỹ cách DALL-E 2 quản lý để tạo ra những hình ảnh đáng kinh ngạc như những hình ảnh ở trên. Rất nhiều thông tin cơ bản sẽ được đưa ra và các mức độ giải thích sẽ chạy theo gam màu, vì vậy bài viết này phù hợp với người đọc ở nhiều cấp độ trải nghiệm Machine Learning. Hãy đi sâu vào!

Cách thức hoạt động của DALL-E 2: Chế độ xem toàn cảnh


Trước khi đi sâu vào chi tiết về cách thức hoạt động của DALL-E 2, chúng ta hãy tự định hướng với tổng quan cấp cao về cách DALL-E 2 tạo ra hình ảnh. Mặc dù DALL-E 2 có thể thực hiện nhiều tác vụ khác nhau, bao gồm thao tác và nội suy ảnh như đã đề cập ở trên, nhưng chúng tôi sẽ tập trung vào tác vụ tạo ảnh trong bài viết này.và sử dụng nó được thì cần đăng ký hoặc mua tài khoản chat gpt

Ở cấp độ cao nhất, DALL-E 2 hoạt động rất đơn giản:

Đầu tiên, một lời nhắc văn bản được nhập vào một bộ mã hóa văn bản được đào tạo để ánh xạ lời nhắc tới một không gian biểu diễn.
Tiếp theo, một mô hình được gọi là sơ đồ ánh xạ mã hóa văn bản thành mã hóa hình ảnh tương ứng nắm bắt thông tin ngữ nghĩa của lời nhắc có trong mã hóa văn bản.
Cuối cùng, một bộ giải mã hình ảnh ngẫu nhiên tạo ra một hình ảnh là biểu hiện trực quan của thông tin ngữ nghĩa này.

Cách thức hoạt động của DALL-E 2: Giao diện chi tiết


Bây giờ là lúc đi sâu vào từng bước trên một cách riêng biệt. Hãy bắt đầu bằng cách xem cách DALL-E 2 học cách liên kết các phần trừu tượng bằng hình ảnh và văn bản có liên quan.

Bước 1 - Liên kết ngữ nghĩa văn bản và hình ảnh
Sau khi nhập "gấu bông cưỡi ván trượt ở Quảng trường Thời đại" , DALL-E 2 xuất ra hình ảnh sau:

Làm thế nào để DALL-E 2 biết cách một khái niệm văn bản như "gấu bông" được thể hiện trong không gian trực quan? Liên kết giữa ngữ nghĩa văn bản và biểu diễn trực quan của chúng trong DALL-E 2 được học bởi một mô hình OpenAI khác có tên là CLIP ( C ontrastive L language- Tôi mage P tái đào tạo).

CLIP được đào tạo trên hàng trăm triệu hình ảnh và chú thích liên quan của chúng, tìm hiểu mức độ liên quan của một đoạn văn bản nhất định với một hình ảnh. Nghĩa là, thay vì cố gắng dự đoán chú thích cho một hình ảnh, thay vào đó, CLIP chỉ tìm hiểu mức độ liên quan của bất kỳ chú thích đã cho nào với hình ảnh. Mục tiêu tương phản hơn là dự đoán này cho phép CLIP tìm hiểu mối liên hệ giữa các biểu diễn văn bản và hình ảnh của cùng một đối tượng trừu tượng. Toàn bộ mô hình DALL-E 2 xoay quanh khả năng học ngữ nghĩa từ ngôn ngữ tự nhiên của CLIP, vì vậy chúng ta hãy xem cách CLIP được đào tạo để hiểu hoạt động bên trong của nó.

CLIP Đào tạo


Các nguyên tắc cơ bản của đào tạo CLIP khá đơn giản:

Đầu tiên, tất cả các hình ảnh và chú thích liên quan của chúng được chuyển qua bộ mã hóa tương ứng, ánh xạ tất cả các đối tượng vào một không gian m- chiều.
Sau đó, độ tương tự cosin của từng cặp (hình ảnh, văn bản) được tính toán.
Mục tiêu đào tạo là tối đa hóa đồng thời độ tương tự cosine giữa N cặp hình ảnh/chú thích được mã hóa đúng và giảm thiểu độ tương tự cosine giữa N 2 - N cặp hình ảnh/chú thích được mã hóa sai .
Quá trình đào tạo này được hình dung dưới đây:

Thông tin thêm về quá trình đào tạo CLIP có thể được tìm thấy dưới đây.

Cosin tương tự
Độ tương tự Cosine của hai vectơ chỉ đơn giản là tích vô hướng của hai vectơ được chia tỷ lệ bằng tích độ lớn của chúng . Nó đo góc giữa hai vectơ trong không gian vectơ; và, trong ngữ cảnh của Machine Learning, xác định mức độ "tương tự" của hai vectơ với nhau. Nếu chúng ta coi mỗi "hướng" trong không gian vectơ là có một ý nghĩa, thì độ tương tự cosin giữa hai vectơ được mã hóa sẽ đo mức độ "giống nhau" của các khái niệm được biểu thị bởi các vectơ.
Dữ liệu đào tạo
CLIP được đào tạo trên tập dữ liệu WebImageText, bao gồm 400 triệu cặp hình ảnh và chú thích ngôn ngữ tự nhiên tương ứng của chúng (đừng nhầm với Văn bản hình ảnh dựa trên Wikipedia )

  • Khả năng song song hóa
  • Khả năng song song hóa quy trình đào tạo của CLIP được thể hiện ngay lập tức - tất cả các mã hóa và điểm tương đồng cosine có thể được tính toán song song.
  • Kiến trúc bộ mã hóa văn bản
  • Bộ mã hóa văn bản là một Transformer
  • Kiến trúc bộ mã hóa hình ảnh
  • Bộ mã hóa hình ảnh là Vision Transformer

Ý nghĩa của CLIP đối với DALL-E 2


CLIP rất quan trọng đối với DALL-E 2 vì nó là yếu tố cuối cùng xác định mức độ liên quan về mặt ngữ nghĩa của một đoạn ngôn ngữ tự nhiên đối với một khái niệm trực quan, điều này rất quan trọng đối với việc tạo hình ảnh có điều kiện văn bản .

Mục tiêu tương phản của CLIP cho phép nó hiểu thông tin ngữ nghĩa theo cách mà các mô hình tích chập chỉ học các bản đồ đặc trưng không thể làm được. Có thể dễ dàng quan sát thấy sự chênh lệch này bằng cách đối chiếu cách CLIP, được sử dụng theo cách không ghi hình, hoạt động trên các tập dữ liệu so với ResNet-101 được ImageNet đào tạo. Đặc biệt, đối chiếu cách các mô hình này so sánh trên ImageNet so với ImageNet Sketch cho thấy rõ sự chênh lệch này.

CLIP và ResNet-101 được ImageNet đào tạo hoạt động với độ chính xác tương tự trên ImageNet, nhưng CLIP vượt trội hơn đáng kể so với ResNet-101 trên ImageNet Sketch. Điều này đúng mặc dù CLIP được sử dụng theo cách không chụp và không sử dụng bất kỳ hình ảnh nào trong số 1,3 triệu hình ảnh ImageNet để đào tạo.

Kết quả này rất quan trọng vì nó cho thấy CLIP học được liên kết ngữ nghĩa giữa các mô tả văn bản về các đối tượng và các biểu hiện trực quan tương ứng của chúng . Thay vì dựa vào các chi tiết cụ thể của các trường hợp hình ảnh, chẳng hạn như màu vàng của chuối, để xác định chúng là một ResNet tích chập có thể, CLIP tìm hiểu ngữ nghĩa "lý tưởng Platon" của chuối "là" , cho phép nó xác định tốt hơn các bản phác thảo của chuối . Hiểu được thực tế rằng các mô tả văn bản và các đặc điểm trực quan có thể ánh xạ tới cùng một "lý tưởng Platon" là rất quan trọng đối với việc tạo hình ảnh có điều kiện bằng văn bản và đây là lý do tại sao CLIP rất quan trọng đối với mô hình DALL-E 2.

Bước 2 - Tạo hình ảnh từ ngữ nghĩa trực quan
Sau khi đào tạo, mô hình CLIP bị đóng băng và DALL-E 2 chuyển sang nhiệm vụ tiếp theo của nó - học cách đảo ngược ánh xạ mã hóa hình ảnh mà CLIP vừa học. CLIP học một không gian biểu diễn trong đó có thể dễ dàng xác định mức độ liên quan của mã hóa văn bản và hình ảnh, nhưng mối quan tâm của chúng tôi là tạo hình ảnh . Do đó, chúng ta phải học cách khai thác không gian biểu diễn để hoàn thành nhiệm vụ này.

Đặc biệt, OpenAI sử dụng một phiên bản sửa đổi của một trong những mô hình trước đó của nó, GLIDE , để thực hiện việc tạo hình ảnh này. Mô hình GLIDE học cách đảo ngược quá trình mã hóa hình ảnh để giải mã ngẫu nhiên các phần nhúng hình ảnh CLIP.

Như được mô tả trong hình trên, cần lưu ý rằng mục tiêu không phải là xây dựng bộ mã hóa tự động và tái cấu trúc chính xác hình ảnh được nhúng, mà thay vào đó tạo ra một hình ảnh duy trì các đặc điểm nổi bật của hình ảnh gốc được nhúng. Để thực hiện việc tạo hình ảnh này, GLIDE sử dụng Mô hình Khuếch tán .

Mô hình khuếch tán là gì?


Mô hình khuếch tán là một phát minh lấy cảm hứng từ nhiệt động lực học đã trở nên phổ biến đáng kể trong những năm gần đây [ 1 ][ 2 ] . Mô hình khuếch tán học cách tạo dữ liệu bằng cách đảo ngược quá trình nhiễu dần dần . Được mô tả trong hình bên dưới, quá trình nhiễu được xem như một chuỗi Markov được tham số hóa, dần dần thêm nhiễu vào hình ảnh để làm hỏng nó, cuối cùng (tiệm cận) dẫn đến nhiễu Gaussian thuần túy. Mô hình khuếch tán học cách điều hướng ngược lại dọc theo chuỗi này, dần dần loại bỏ tiếng ồn qua một loạt dấu thời gian để đảo ngược quá trình này.

Nếu Mô hình khuếch tán sau đó bị "cắt đôi" sau khi đào tạo, thì nó có thể được sử dụng để tạo hình ảnh bằng cách lấy mẫu ngẫu nhiên nhiễu Gaussian và sau đó khử nhiễu để tạo ra hình ảnh chân thực. Một số người có thể nhận ra rằng kỹ thuật này rất giống với việc tạo dữ liệu bằng Bộ mã hóa tự động và trên thực tế, Mô hình khuếch tán và Bộ mã hóa tự động có liên quan với nhau .

Đào tạo GLIDE


Mặc dù GLIDE không phải là Mô hình khuếch tán đầu tiên, nhưng đóng góp quan trọng của nó là sửa đổi chúng để cho phép tạo hình ảnh có điều kiện văn bản . Đặc biệt, người ta sẽ nhận thấy rằng các Mô hình khuếch tán bắt đầu từ nhiễu Gaussian được lấy mẫu ngẫu nhiên. Lúc đầu, không rõ làm thế nào để điều chỉnh quy trình này để tạo ra các hình ảnh cụ thể . Nếu Mô hình khuếch tán được đào tạo trên bộ dữ liệu khuôn mặt người, thì nó sẽ tạo ra hình ảnh chân thực về khuôn mặt người một cách đáng tin cậy; nhưng nếu ai đó muốn tạo một khuôn mặt với một đặc điểm cụ thể , chẳng hạn như mắt nâu hoặc tóc vàng thì sao?

GLIDE mở rộng khái niệm cốt lõi của Mô hình khuếch tán bằng cách tăng cường quá trình đào tạo với thông tin văn bản bổ sung , cuối cùng dẫn đến việc tạo hình ảnh có điều kiện văn bản. Hãy cùng xem quá trình đào tạo GLIDE:

Thông tin thêm về quy trình đào tạo GLIDE có thể được tìm thấy bên dưới.

lấy mẫu
Hình ảnh do quy trình Khuếch tán ngược tạo ra có kích thước 64 x 64, do đó, các tác giả cũng huấn luyện các mô hình lấy mẫu nâng cấp được điều chỉnh theo văn bản theo cách tương tự để đưa dữ liệu được tạo lên tới 1.024 x 1.024.
Mô hình khuếch tán triệt tiêu
OpenAI lần đầu tiên giải quyết vấn đề này với Mô hình khuếch tán Ablated (ADM), ban đầu chỉ bao gồm điều hòa lớp. OpenAI đã mở rộng khái niệm này với GLIDE để khái quát hóa điều kiện Mô hình khuếch tán để bao gồm ngôn ngữ tự nhiên chung .
ADM ban đầu được tạo ra để kết hợp khả năng của Mô hình khuếch tán để tạo ra hình ảnh quang học với khả năng của các mô hình có điều kiện văn bản để hợp nhất các đối tượng không liên quan theo những cách hợp lý về mặt ngữ nghĩa.
Cũng bao gồm trong bài báo ADM là một nghiên cứu cắt bỏ để khám phá chủ đề tối ưu hóa cấu trúc Mô hình khuếch tán (do đó Mô hình khuếch tán cắt bỏ ). Các chi tiết của khám phá này nằm ngoài phạm vi của bài viết này, nhưng độc giả quan tâm nên tham khảo bài viết được liên kết để biết thêm chi tiết.

Dưới đây là một số ví dụ về hình ảnh được tạo bằng GLIDE. Các tác giả lưu ý rằng GLIDE hoạt động tốt hơn DALL-E (1) đối với chủ nghĩa hiện thực và sự giống nhau của chú thích.

DALL-E 2 sử dụng mô hình GLIDE đã sửa đổi kết hợp nhúng văn bản CLIP dự kiến ​​theo hai cách. Cách thứ nhất là thêm phần nhúng văn bản CLIP vào phần nhúng dấu thời gian hiện có của GLIDE và cách thứ hai là tạo thêm bốn mã thông báo ngữ cảnh, được nối với chuỗi đầu ra của bộ mã hóa văn bản GLIDE.

Ý nghĩa của GLIDE đối với DALL-E 2


GLIDE rất quan trọng đối với DALL-E 2 vì nó cho phép các tác giả dễ dàng chuyển các khả năng tạo hình ảnh quang học có điều kiện văn bản của GLIDE sang DALL-E 2 bằng cách thay vào đó điều chỉnh mã hóa hình ảnh trong không gian biểu diễn. Do đó, GLIDE đã sửa đổi của DALL-E 2 học cách tạo ra các hình ảnh nhất quán về mặt ngữ nghĩa dựa trên mã hóa hình ảnh CLIP . Cũng cần lưu ý rằng quy trình Khuếch tán ngược là ngẫu nhiên và do đó có thể dễ dàng tạo ra các biến thể bằng cách nhập nhiều lần các vectơ mã hóa hình ảnh giống nhau thông qua mô hình GLIDE đã sửa đổi.

Bước 3 - Ánh xạ từ ngữ nghĩa văn bản sang ngữ nghĩa hình ảnh tương ứng
Trong khi mô hình GLIDE đã sửa đổi tạo thành công các hình ảnh phản ánh ngữ nghĩa được ghi lại bằng mã hóa hình ảnh, làm cách nào để chúng ta thực sự tìm kiếm các biểu diễn được mã hóa này? Nói cách khác, làm thế nào để chúng ta đưa thông tin điều chỉnh văn bản từ lời nhắc của chúng ta vào quá trình tạo hình ảnh?

Nhớ lại rằng, ngoài bộ mã hóa hình ảnh của chúng tôi , CLIP cũng học một bộ mã hóa văn bản . DALL-E 2 sử dụng một mô hình khác, mà các tác giả gọi là mô hình trước đó , để ánh xạ từ mã hóa văn bản của chú thích hình ảnh sang mã hóa hình ảnh của hình ảnh tương ứng của chúng. Các tác giả DALL-E 2 thử nghiệm với cả Mô hình hồi quy tự động và Mô hình khuếch tán cho phiên bản trước, nhưng cuối cùng nhận thấy rằng chúng mang lại hiệu suất tương đương. Cho rằng Mô hình khuếch tán hiệu quả hơn nhiều về mặt tính toán, nó được chọn làm mô hình ưu tiên cho DALL-E 2.

Đào tạo trước


Khuếch tán trước trong DALL-E 2 bao gồm một Biến áp chỉ dành cho bộ giải mã. Nó hoạt động, với một mặt nạ chú ý nhân quả, trên một trình tự có trật tự của

  • Văn bản/chú thích được mã hóa.
  • Mã hóa văn bản CLIP của các mã thông báo này.
  • Mã hóa cho dấu thời gian khuếch tán.
  • Hình ảnh nhiễu được chuyển qua bộ mã hóa hình ảnh CLIP.
  • Mã hóa cuối cùng có đầu ra từ Transformer được sử dụng để dự đoán mã hóa hình ảnh CLIP không nhiễu.

Thông tin thêm về quá trình đào tạo trước có thể được tìm thấy dưới đây.

Điều hòa trên Caption


Sự phổ biến trước đó không chỉ dựa trên việc nhúng văn bản CLIP của chú thích mà còn trên chính chú thích đó. Cái trước là một chức năng xác định của cái sau và điều hòa kép này do đó hoàn toàn được phép.
Hướng dẫn miễn phí phân loại
Để cải thiện chất lượng mẫu, việc lấy mẫu được tiến hành ngẫu nhiên bằng cách sử dụng hướng dẫn không có bộ phân loại trong 10% thời gian bằng cách loại bỏ thông tin điều chỉnh văn bản.
Tạo mẫu kép
Để cải thiện chất lượng trong thời gian lấy mẫu, hai phần nhúng hình ảnh được tạo với phần trước và phần nhúng có sản phẩm chấm cao hơn với phần nhúng văn bản được chọn. Không rõ tại sao các tác giả sử dụng sản phẩm chấm ở đây trái ngược với sự tương tự cosine.
Tại sao chúng ta cần cái trước?
Các tác giả lưu ý rằng việc đào tạo trước như vậy là không thực sự cần thiết đối với mô hình chú thích thành hình ảnh. Một lựa chọn sẽ là chỉ đưa ra điều kiện cho chính chú thích. Điều này chỉ đơn giản là tạo ra mô hình GLIDE và các tác giả thực hiện phân tích kỹ lưỡng so sánh hai mô hình trong bài báo. Một tùy chọn khác là đưa vào bộ giải mã nhúng văn bản CLIP, thay vì sử dụng tùy chọn trước để tạo nhúng hình ảnh CLIP từ nó và sau đó sử dụng tùy chọn đó. Các tác giả đã tìm thấy bằng thực nghiệm rằng cái trước tạo ra kết quả hợp lý, mặc dù kết quả không tốt bằng cái sau. Cuối cùng, việc sử dụng tính đa dạng của hình ảnh được cải thiện trước đó .

Bước 4 - Kết hợp tất cả lại với nhau
Tại thời điểm này, chúng ta có tất cả các thành phần chức năng của DALL-E 2 và chỉ cần xâu chuỗi chúng lại với nhau để tạo hình ảnh có điều kiện văn bản:

Đầu tiên, bộ mã hóa văn bản CLIP ánh xạ mô tả hình ảnh vào không gian biểu diễn .
Sau đó, bản đồ khuếch tán trước từ mã hóa văn bản CLIP sang mã hóa hình ảnh CLIP tương ứng .
Cuối cùng, mô hình tạo GLIDE đã sửa đổi ánh xạ từ không gian biểu diễn vào không gian hình ảnh thông qua Khuếch tán ngược, tạo ra một trong nhiều hình ảnh có thể truyền tải thông tin ngữ nghĩa trong chú thích đầu vào.

Bản tóm tắt


Trong bài viết này, chúng tôi đã đề cập đến cách thức hoạt động của mô hình tạo hình ảnh có điều kiện bằng văn bản hàng đầu trên thế giới. DALL-E 2 có thể tạo ra các hình ảnh quang học hợp lý về mặt ngữ nghĩa với lời nhắc văn bản, có thể tạo ra các hình ảnh có phong cách nghệ thuật cụ thể, có thể tạo ra các biến thể của cùng một đặc điểm nổi bật được thể hiện theo các cách khác nhau và có thể sửa đổi các hình ảnh hiện có.

Mặc dù có rất nhiều cuộc thảo luận về DALL-E 2 và tầm quan trọng của nó đối với cả Deep Learning và thế giới nói chung, chúng tôi thu hút sự chú ý của bạn đến 3 điểm chính từ sự phát triển của DALL-E 2

Đầu tiên, DALL-E 2 thể hiện sức mạnh của Mô hình khuếch tán trong Deep Learning, với cả mô hình phụ tạo hình ảnh và mô hình trước đó trong DALL-E 2 đều dựa trên khuếch tán. Mặc dù chỉ mới bắt đầu được sử dụng phổ biến trong vài năm qua, nhưng các Mô hình khuếch tán đã chứng minh được giá trị của chúng và những người theo dõi nghiên cứu Học sâu sẽ mong đợi được thấy nhiều mô hình hơn trong tương lai.
Điểm thứ hai là làm nổi bật cả nhu cầu và sức mạnh của việc sử dụng ngôn ngữ tự nhiên như một phương tiện để đào tạo các mô hình Deep Learning tiên tiến nhất . Điểm này không bắt nguồn từ DALL-E 2 (cụ thể là CLIP đã chứng minh điều đó trước đây), tuy nhiên, điều quan trọng là phải đánh giá cao rằng sức mạnh của DALL-E 2 cuối cùng bắt nguồn từ lượng dữ liệu hình ảnh/ngôn ngữ tự nhiên được ghép nối cực kỳ lớn mà có sẵn trên internet. Việc sử dụng dữ liệu như vậy không chỉ loại bỏ nút cổ chai phát triển liên quan đến quá trình dán nhãn thủ công các bộ dữ liệu tốn nhiều công sức và công sức; nhưng bản chất ồn ào, không được kiểm soát của dữ liệu đó phản ánh tốt hơn dữ liệu trong thế giới thực mà các mô hình Học sâu phải mạnh mẽ.
Cuối cùng, DALL-E 2 tái khẳng định vị trí của Transformers là tối cao đối với các mô hình được đào tạo trên bộ dữ liệu quy mô web nhờ khả năng song song hóa ấn tượng của chúng.

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !