Dall-E là gì và nó hoạt động như thế nào?

DALL·E là một mô hình trí tuệ nhân tạo (AI) tiên tiến do OpenAI phát triển, có khả năng tạo ra hình ảnh từ văn bản mô tả. Đây là một trong những bước tiến quan trọng trong lĩnh vực AI tạo sinh (Generative AI), cho phép người dùng chỉ cần nhập vào một đoạn mô tả, và hệ thống sẽ tạo ra hình ảnh tương ứng.

Dall-E là công nghệ trí tuệ nhân tạo (AI) tạo hình cho phép người dùng tạo hình ảnh bằng cách gửi lời nhắc dạng văn bản. Đằng sau hậu trường, Dall-E sử dụng các công nghệ chuyển văn bản thành đồ họa tiên tiến để biến các từ ngữ thông thường thành hình ảnh. Dall-E là mạng nơ-ron được đào tạo có thể tạo ra các hình ảnh hoàn toàn mới theo nhiều phong cách khác nhau dựa trên lời nhắc của người dùng.

Xem thêm: mua tài khoản Chat GPT Plus chính hãng giá rẻ với nhiều ưu đãi hấp dẫn duy nhất ngày hôm nay!

Tên Dall-E là sự tôn vinh hai chủ đề cốt lõi khác nhau của công nghệ, ám chỉ mục tiêu kết hợp nghệ thuật và công nghệ AI. Phần đầu tiên (Dall) có ý định gợi lên nghệ sĩ siêu thực người Tây Ban Nha Salvador Dalí, và phần thứ hai (E) liên quan đến robot Disney hư cấu Wall-E. Sự kết hợp của hai cái tên phản ánh sức mạnh minh họa trừu tượng và có phần siêu thực của công nghệ.

Nhà cung cấp AI OpenAI đã phát triển Dall-E và ra mắt phiên bản đầu tiên vào tháng 1 năm 2021. Công nghệ này sử dụng các mô hình học sâu cùng với mô hình ngôn ngữ lớn (LLM) GPT-3 làm cơ sở để hiểu lời nhắc của người dùng bằng ngôn ngữ tự nhiên và tạo ra hình ảnh mới.

Dall-E là sự phát triển của một dự án mà OpenAI lần đầu giới thiệu vào tháng 6 năm 2020. Ban đầu được gọi là Image GPT, dự án này đại diện cho nỗ lực ban đầu nhằm chứng minh cách mạng lưới nơ-ron có thể được sử dụng để tạo ra hình ảnh chất lượng cao. Dall-E đã mở rộng khái niệm ban đầu của Image GPT bằng cách cho phép người dùng tạo hình ảnh mới bằng lời nhắc văn bản, giống như cách GPT-3 có thể tạo văn bản mới để phản hồi lời nhắc văn bản ngôn ngữ tự nhiên.

Công nghệ Dall-E phù hợp với một loại AI đôi khi được gọi là thiết kế tạo sinh. Nó cạnh tranh với các công nghệ tương tự, chẳng hạn như Stable Diffusion và Midjourney.

1. Dall-E hoạt động như thế nào?

Dall-E sử dụng một số công nghệ để tạo ra hình ảnh, bao gồm xử lý ngôn ngữ tự nhiên, LLM và xử lý khuếch tán.

Dall-E ban đầu được xây dựng bằng cách sử dụng một tập hợp con của GPT-3 LLM. Tuy nhiên, thay vì 175 tỷ tham số đầy đủ mà GPT-3 cung cấp, Dall-E chỉ sử dụng 12 tỷ, một phương pháp được thiết kế để tối ưu hóa việc tạo hình ảnh. Giống như GPT-3 LLM, Dall-E sử dụng mạng nơ-ron biến áp - còn được gọi là biến áp - để cho phép mô hình tạo và hiểu các kết nối giữa các khái niệm khác nhau.

Phương pháp ban đầu được sử dụng trong Dall-E để triển khai quá trình tạo văn bản thành hình ảnh đã được mô tả trong bài báo nghiên cứu " Zero-Shot Text-to-Image Generation ", được xuất bản vào tháng 2 năm 2021. Zero-shot là phương pháp AI cho phép mô hình thực hiện một nhiệm vụ, chẳng hạn như tạo ra một hình ảnh hoàn toàn mới bằng cách sử dụng kiến thức trước đó và các khái niệm liên quan.

Để giúp chứng minh rằng mô hình Dall-E có thể tạo hình ảnh chính xác, OpenAI cũng đã xây dựng mô hình đào tạo trước ngôn ngữ-hình ảnh tương phản (CLIP), được đào tạo trên 400 triệu hình ảnh được gắn nhãn. OpenAI đã sử dụng CLIP để giúp đánh giá đầu ra của Dall-E bằng cách phân tích chú thích nào phù hợp nhất với hình ảnh được tạo.

OpenAI đã công bố bản phát hành đầu tiên của Dall-E vào tháng 1 năm 2021. Dall-E tạo ra hình ảnh từ văn bản bằng công nghệ được gọi là bộ mã hóa tự động biến thiên rời rạc . dVAE dựa trên nghiên cứu do bộ phận DeepMind của Alphabet thực hiện với bộ mã hóa tự động biến thiên lượng tử vector.

2. Việc di chuyển đến Dall-E 2

Vào tháng 4 năm 2022, OpenAI đã giới thiệu Dall-E 2, cung cấp cho người dùng một loạt các khả năng nâng cao. Nó cũng cải thiện các phương pháp được sử dụng để tạo hình ảnh, tạo ra một nền tảng có thể cung cấp hình ảnh cao cấp và chân thực hơn. Một trong những thay đổi quan trọng nhất là chuyển sang mô hình khuếch tán tích hợp dữ liệu CLIP để tạo ra hình ảnh chất lượng cao hơn.

So với dVAE được sử dụng trong Dall-E, mô hình khuếch tán có thể tạo ra hình ảnh chất lượng cao hơn nữa. OpenAI tuyên bố rằng Dall-E 2 có thể tạo ra hình ảnh có độ phân giải gấp bốn lần so với hình ảnh Dall-E. Dall-E 2 cũng có những cải tiến về tốc độ và kích thước hình ảnh, cho phép người dùng tạo ra hình ảnh lớn hơn với tốc độ nhanh hơn.

Dall-E 2 cũng mở rộng khả năng tùy chỉnh hình ảnh và áp dụng các kiểu khác nhau. Ví dụ, trong Dall-E 2, lời nhắc có thể chỉ định rằng hình ảnh được vẽ dưới dạng pixel art hoặc tranh sơn dầu. Dall-E 2 cũng giới thiệu khái niệm outpainting, cho phép người dùng tạo hình ảnh dưới dạng phần mở rộng -- hoặc outpainting - của hình ảnh gốc.

3. Sự ra đời của Dall-E 3

OpenAI đã phát hành Dall-E 3 vào tháng 10 năm 2023. Dall-E 3 xây dựng dựa trên và cải thiện Dall-E 2, cung cấp chất lượng hình ảnh tốt hơn và độ trung thực của lời nhắc. Dall-E 3 cũng được tích hợp sẵn vào ChatGPT, không giống như phiên bản tiền nhiệm của nó. Bây giờ, bất kỳ người dùng nào cũng có thể tạo hình ảnh do AI tạo ra từ lời nhắc ChatGPT-4. Tuy nhiên, phiên bản ChatGPT miễn phí giới hạn người dùng chỉ được tạo hai hình ảnh mỗi ngày. Các nhà phát triển cũng có thể truy cập các dịch vụ Dall-E 3 thông qua giao diện lập trình ứng dụng (API) OpenAI, cho phép họ nhúng chức năng Dall-E 3 trực tiếp vào ứng dụng của họ.

Dall-E 3 đi kèm với những cải tiến đáng kể về kỹ thuật chuyển văn bản thành hình ảnh. Người dùng có thể tạo hình ảnh dễ dàng hơn thông qua cuộc trò chuyện đơn giản và Dall-E 3 hiển thị chúng trung thực hơn. Dall-E 3 có thể xử lý các lời nhắc mở rộng mà không bị nhầm lẫn và hiển thị các chi tiết phức tạp theo nhiều phong cách khác nhau. Nó có thể hiểu các hướng dẫn sắc thái hơn. Ngoài ra, ChatGPT tự động tinh chỉnh lời nhắc của người dùng, điều chỉnh lời nhắc ban đầu để đạt được kết quả chính xác hơn. Người dùng cũng có thể yêu cầu sửa đổi trực tiếp trong cùng một cuộc trò chuyện với yêu cầu hình ảnh đầu tiên.

Bản thân hình ảnh cũng vượt trội hơn Dall-E 2. Chúng chính xác hơn, về mặt phản hồi lời nhắc, và các chi tiết sắc nét hơn, chính xác hơn và tinh tế hơn về mặt thị giác. Dall-E 3 cũng có thể tạo hình ảnh theo cả tỷ lệ khung hình ngang và dọc. Ngoài ra, Dall-E 3 có thể thêm văn bản vào hình ảnh hiệu quả hơn nhiều so với Dall-E 2, mặc dù khả năng chèn văn bản vẫn còn hơi khó đoán.

OpenAI đã thêm một số biện pháp bảo vệ vào Dall-E 3 để hạn chế khả năng tạo nội dung dành cho người lớn, bạo lực hoặc thù hận. Ví dụ, Dall-E 3 không trả về hình ảnh nếu lời nhắc bao gồm các thành kiến có hại hoặc tên của một người của công chúng. OpenAI cũng đã thực hiện các bước để cải thiện biểu diễn nhân khẩu học trong các hình ảnh được tạo ra. Ngoài ra, Dall-E 3 từ chối mọi yêu cầu yêu cầu phong cách của một nghệ sĩ còn sống. Nghệ sĩ cũng có thể từ chối sử dụng tác phẩm nghệ thuật của họ để đào tạo người mẫu.

Sau khi phát hành Dall-E 3, OpenAI đã ngừng chấp nhận khách hàng Dall-E 2 mới. Điều này cũng có nghĩa là khách hàng mới không thể mua tín dụng Dall-E 2, mặc dù tín dụng đã mua trước đó vẫn có hiệu lực.

4. Lợi ích của Dall-E là gì?

Những lợi ích tiềm năng của Dall-E bao gồm:

Tốc độ. Dall-E có thể tạo ra hình ảnh trong thời gian ngắn, thường là chưa đến một phút. Người dùng có thể tạo ra hình ảnh chi tiết, chất lượng cao chỉ với một lời nhắc văn bản.
Tùy chỉnh. Với lời nhắc văn bản phù hợp, người dùng có thể tạo ra hình ảnh tùy chỉnh cao về hầu như bất kỳ thứ gì có thể tưởng tượng được -- mặc dù vẫn nằm trong giới hạn về nội dung dành cho người lớn, bạo lực hoặc thù hận.
Khả năng truy cập. Vì Dall-E 3 có thể truy cập thông qua ChatGPT bằng ngôn ngữ tự nhiên, Dall-E có sẵn cho nhiều người dùng. Nó không yêu cầu bất kỳ đào tạo chuyên sâu hoặc kỹ năng lập trình cụ thể nào.
Tinh chỉnh. Người dùng có thể tinh chỉnh hình ảnh thông qua các lời nhắc tiếp theo trong cùng phiên trò chuyện với lời nhắc ban đầu. Người dùng cũng có thể sử dụng lời nhắc do Dall-E tạo ra khi khởi chạy phiên trò chuyện mới. Dall-E cũng gợi ý các lời nhắc để tinh chỉnh hình ảnh sau khi tạo hình ảnh ban đầu.
Tính linh hoạt. Dall-E có thể phân tích hình ảnh do người dùng gửi đến và từ đó tạo ra hình ảnh mới dựa trên lời nhắc của người dùng.

5. Những hạn chế của Dall-E là gì?

Mặc dù Dall-E có nhiều lợi ích nhưng nó cũng đi kèm một số lo ngại quan trọng:

Bản quyền. Trước đây, có lo ngại về bản quyền đối với hình ảnh do Dall-E tạo ra, cũng như liệu nó có được đào tạo trên hình ảnh có bản quyền hay không. Với Dall-E 3, OpenAI đã thực hiện nhiều bước để giải quyết một số lo ngại này, nhưng hiệu quả của các bước đó vẫn chưa rõ ràng.
Tính hợp pháp của hình ảnh. Một số người đặt câu hỏi về tính hợp pháp và đạo đức của nghệ thuật do AI tạo ra và liệu nó có thay thế con người hay không. Cuộc tranh cãi này sẽ tiếp tục trong tương lai gần; không có câu trả lời rõ ràng cho những lo ngại. Tuy nhiên, OpenAI đang nghiên cứu các cách để xác định thời điểm một hình ảnh được tạo ra bằng AI.
Bộ dữ liệu. Mặc dù Dall-E được đào tạo bằng cách sử dụng một bộ dữ liệu lớn, một lượng lớn dữ liệu hình ảnh và mô tả vẫn chưa được khai thác. Do đó, lời nhắc của người dùng có thể không tạo được hình ảnh mong muốn vì mô hình thiếu thông tin cơ bản.
Tính chân thực. Mặc dù Dall-E 3 đã cải thiện đáng kể chất lượng hình ảnh được tạo ra, một số hình ảnh có thể không đủ chân thực đối với một số người dùng.
Bối cảnh. Để có được hình ảnh đúng, người dùng phải gửi lời nhắc được định nghĩa rõ ràng. Nếu lời nhắc quá chung chung hoặc thiếu bối cảnh, hình ảnh do Dall-E tạo ra có thể không chính xác. Ngay cả những lời nhắc làm rõ tiếp theo cũng có thể không tạo ra hình ảnh mong đợi.
Sự thiên vị. Mặc dù OpenAI đang thực hiện các bước để giảm sự thiên vị trong hình ảnh Dall-E, nguy cơ thiên vị vẫn có thể tồn tại xung quanh các vấn đề như chủng tộc, giai cấp, giới tính, hệ thống niềm tin hoặc quốc gia xuất xứ.

6. Các trường hợp sử dụng Dall-E

Là một công nghệ AI tạo ra, Dall-E 3 cung cấp nhiều trường hợp sử dụng tiềm năng cho cả cá nhân và tổ chức:

Cảm hứng sáng tạo. Công nghệ này có thể được sử dụng để giúp truyền cảm hứng cho các nghệ sĩ hoặc những cá nhân khác tạo ra thứ gì đó mới. Dall-E cũng có thể được sử dụng để hỗ trợ quá trình sáng tạo hiện có.
Giải trí. Hình ảnh do Dall-E tạo ra có khả năng được sử dụng trong sách hoặc trò chơi. Dall-E có thể vượt xa hình ảnh do máy tính tạo ra thông thường vì các lời nhắc giúp tạo đồ họa dễ dàng hơn.
Giáo dục. Giáo viên và nhà giáo dục có thể sử dụng Dall-E để tạo hình ảnh nhằm giúp giải thích các khái niệm khác nhau.
Quảng cáo và tiếp thị. Khả năng tạo ra những hình ảnh hoàn toàn độc đáo và mới lạ có thể hữu ích cho quảng cáo và tiếp thị.
Thiết kế sản phẩm. Nhà thiết kế sản phẩm có thể sử dụng Dall-E để hình dung ra sản phẩm mới, nhanh hơn đáng kể so với việc sử dụng công nghệ thiết kế hỗ trợ máy tính truyền thống .
Nghệ thuật. Bất kỳ ai cũng có thể sử dụng Dall-E để sáng tạo ra tác phẩm nghệ thuật mới để thưởng thức và trưng bày.
Thiết kế thời trang. Là một công cụ bổ sung cho các công cụ hiện có, Dall-E có khả năng giúp các nhà thiết kế thời trang đưa ra những khái niệm mới.

7. Dall-E có giá bao nhiêu?

Dall-E 3 hiện đã được nhúng trong ChatGPT và có sẵn cho người dùng có gói đăng ký ChatGPT trả phí, bao gồm Plus, Team và Enterprise. Các gói bắt đầu từ 20 đô la cho mỗi người dùng mỗi tháng. Những cá nhân sử dụng phiên bản miễn phí của ChatGPT chỉ có thể tạo hai hình ảnh Dall-E mỗi ngày. OpenAI không còn chấp nhận khách hàng Dall-E 2 mới nữa.

Dall-E 3 cũng khả dụng cho người dùng Microsoft Copilot . Microsoft không giới hạn số lượng hình ảnh mà người dùng có thể tạo ra mỗi ngày. Thay vào đó, công ty giới hạn số lần tăng cường khả dụng cho mỗi gói đăng ký. Tăng cường là mức tăng hiệu suất mà trình tạo hình ảnh nhận được mỗi khi tạo ra một hình ảnh. Gói miễn phí chỉ cung cấp 15 lần tăng cường mỗi ngày. Số lượng tăng lên với các gói đăng ký trả phí.

Các nhà phát triển cũng có thể truy cập các khả năng của Dall-E 2 và Dall-E 3 thông qua API OpenAI . API cho phép họ kết hợp các khả năng của Dall-E trực tiếp vào ứng dụng của họ. Bảng này hiển thị giá hiện tại của OpenAI cho dịch vụ Dall-E của API.

Người mẫu	Chất lượng	Nghị quyết	Giá
Dall-E 3	Tiêu chuẩn	1024×1024	0,040 đô la cho mỗi hình ảnh
	Tiêu chuẩn	1024×1792, 1792×1024	0,080 đô la cho mỗi hình ảnh
Dall-E 3	Độ nét cao	1024×1024	0,080 đô la cho mỗi hình ảnh
	Độ nét cao	1024×1792, 1792×1024	0,120 đô la cho mỗi hình ảnh
Dall-E 2		1024×1024	0,020 đô la cho mỗi hình ảnh
		512x512	0,018 đô la cho mỗi hình ảnh
		256x256	0,016 đô la cho mỗi hình ảnh