Tạo video từ văn bản

Chúng tôi đang dạy AI cách hiểu và mô phỏng thế giới vật lý chuyển động, với mục tiêu đào tạo các mô hình giúp con người giải quyết các vấn đề đòi hỏi tương tác trong thế giới thực.

Giới thiệu Sora, mô hình chuyển văn bản thành video của chúng tôi. Sora có thể tạo video dài tới một phút trong khi vẫn duy trì chất lượng hình ảnh và tuân thủ theo lời nhắc của người dùng.

1 đoạn video ngắn do Sora tạo ra nhìn giống hệt video được quay từ máy ảnh

Ngày nay, Sora đang trở nên khả dụng cho các nhóm đỏ để đánh giá các khu vực quan trọng về tác hại hoặc rủi ro. Chúng tôi cũng cấp quyền truy cập cho một số nghệ sĩ thị giác, nhà thiết kế và nhà làm phim để nhận phản hồi về cách cải tiến mô hình để hữu ích nhất cho các chuyên gia sáng tạo.

Chúng tôi đang chia sẻ tiến trình nghiên cứu của mình ngay từ đầu để bắt đầu làm việc và nhận phản hồi từ những người bên ngoài OpenAI, đồng thời giúp công chúng biết được khả năng của AI trong tương lai.

Góc quay do AI Sora tạo ra từ 1 đoạn văn bản

Sora có thể tạo ra các cảnh phức tạp với nhiều nhân vật, các loại chuyển động cụ thể và các chi tiết chính xác về chủ thể và bối cảnh. Mô hình không chỉ hiểu những gì người dùng yêu cầu trong lời nhắc mà còn hiểu cách những thứ đó tồn tại trong thế giới vật lý.

Mô hình có hiểu biết sâu sắc về ngôn ngữ, cho phép nó diễn giải chính xác các lời nhắc và tạo ra các nhân vật hấp dẫn thể hiện cảm xúc sống động. Sora cũng có thể tạo nhiều cảnh quay trong một video được tạo ra duy nhất để duy trì chính xác các nhân vật và phong cách trực quan.

Mô hình hiện tại vẫn còn nhiều chỗ để cải thiện. Nó có thể gặp khó khăn khi mô phỏng vật lý của một cảnh phức tạp và có thể không hiểu được các trường hợp cụ thể về nguyên nhân và kết quả (ví dụ: một chiếc bánh quy có thể không hiển thị dấu sau khi một nhân vật cắn nó). Mô hình cũng có thể nhầm lẫn các chi tiết không gian có trong lời nhắc, chẳng hạn như phân biệt trái và phải hoặc gặp khó khăn trong việc mô tả chính xác các sự kiện diễn ra theo thời gian, như quỹ đạo máy ảnh cụ thể.

Sự an toàn

Chúng tôi sẽ thực hiện một số bước an toàn quan trọng trước khi đưa Sora vào các sản phẩm của OpenAI. Chúng tôi đang làm việc với các thành viên nhóm đỏ — chuyên gia trong các lĩnh vực như thông tin sai lệch, nội dung thù địch và thiên vị — những người sẽ thử nghiệm mô hình theo hướng đối đầu.

Chúng tôi cũng đang xây dựng các công cụ giúp phát hiện nội dung gây hiểu lầm như bộ phân loại phát hiện có thể cho biết thời điểm video được tạo bởi Sora. Chúng tôi có kế hoạch đưa siêu dữ liệu C2PA (mở trong cửa sổ mới) trong tương lai nếu chúng ta triển khai mô hình trong sản phẩm OpenAI.

Ngoài việc chúng tôi phát triển các kỹ thuật mới để chuẩn bị triển khai, chúng tôi còn tận dụng các phương pháp an toàn hiện có(mở trong cửa sổ mới)mà chúng tôi xây dựng cho các sản phẩm sử dụng DALL·E 3, có thể áp dụng cho Sora.

Ví dụ, khi ở trong sản phẩm OpenAI, trình phân loại văn bản của chúng tôi sẽ kiểm tra và từ chối các lời nhắc nhập văn bản vi phạm chính sách sử dụng của chúng tôi, chẳng hạn như các lời nhắc yêu cầu bạo lực cực độ, nội dung khiêu dâm, hình ảnh thù địch, giống người nổi tiếng hoặc IP của người khác. Chúng tôi cũng đã phát triển các trình phân loại hình ảnh mạnh mẽ được sử dụng để xem xét các khung hình của mọi video được tạo ra để giúp đảm bảo rằng video đó tuân thủ chính sách sử dụng của chúng tôi trước khi hiển thị cho người dùng.

Chúng tôi sẽ thu hút các nhà hoạch định chính sách, nhà giáo dục và nghệ sĩ trên toàn thế giới để hiểu mối quan tâm của họ và xác định các trường hợp sử dụng tích cực cho công nghệ mới này. Mặc dù đã nghiên cứu và thử nghiệm rộng rãi, chúng tôi không thể dự đoán tất cả các cách có lợi mà mọi người sẽ sử dụng công nghệ của chúng tôi, cũng như tất cả các cách mọi người sẽ lạm dụng nó. Đó là lý do tại sao chúng tôi tin rằng việc học hỏi từ việc sử dụng trong thế giới thực là một thành phần quan trọng để tạo ra và phát hành các hệ thống AI ngày càng an toàn hơn theo thời gian.

Kỹ thuật nghiên cứu

Sora là một mô hình khuếch tán, tạo ra video bằng cách bắt đầu với video trông giống như nhiễu tĩnh và dần dần biến đổi video đó bằng cách loại bỏ nhiễu qua nhiều bước.

Sora có khả năng tạo toàn bộ video cùng một lúc hoặc kéo dài video đã tạo để làm cho chúng dài hơn. Bằng cách cung cấp cho mô hình khả năng dự đoán nhiều khung hình cùng một lúc, chúng tôi đã giải quyết được một vấn đề đầy thách thức là đảm bảo chủ thể vẫn giữ nguyên ngay cả khi chủ thể tạm thời biến mất khỏi tầm nhìn.

Tương tự như mô hình GPT, Sora sử dụng kiến trúc biến áp, mở khóa hiệu suất mở rộng vượt trội.

Chúng tôi biểu diễn video và hình ảnh dưới dạng các tập hợp các đơn vị dữ liệu nhỏ hơn được gọi là các bản vá, mỗi bản vá tương tự như một mã thông báo trong GPT. Bằng cách thống nhất cách chúng tôi biểu diễn dữ liệu, chúng tôi có thể đào tạo các bộ biến đổi khuếch tán trên phạm vi dữ liệu trực quan rộng hơn so với trước đây, trải dài các khoảng thời gian, độ phân giải và tỷ lệ khung hình khác nhau.

Sora xây dựng dựa trên nghiên cứu trước đây trong các mô hình DALL·E và GPT. Nó sử dụng kỹ thuật chú thích lại từ DALL·E 3, bao gồm việc tạo ra các chú thích mô tả cao cho dữ liệu đào tạo trực quan. Do đó, mô hình có thể tuân theo các hướng dẫn văn bản của người dùng trong video được tạo ra một cách trung thực hơn.

Ngoài khả năng tạo video chỉ từ hướng dẫn văn bản, mô hình có thể lấy một hình ảnh tĩnh hiện có và tạo video từ đó, làm hoạt hình nội dung hình ảnh với độ chính xác và chú ý đến từng chi tiết nhỏ. Mô hình cũng có thể lấy một video hiện có và mở rộng hoặc điền vào các khung hình bị thiếu. Tìm hiểu thêm trong báo cáo kỹ thuật của chúng tôi .

Sora đóng vai trò là nền tảng cho các mô hình có khả năng hiểu và mô phỏng thế giới thực, một khả năng mà chúng tôi tin rằng sẽ là cột mốc quan trọng để đạt được AGI.

Xem thêm: mua tài khoản Chat GPT Plus và tài khoản Chat GPT 4 chính hãng giá rẻ duy nhất hôm nay

Họ tên (*)	Số điện thoại (*)
Email (*)	Dịch vụ

Tạo video từ văn bản

Sự an toàn

Kỹ thuật nghiên cứu

Bài liên quan

Hệ thống phân cấp hướng dẫn: Đào tạo LLM để ưu tiên các…

Trình Tạo Bài Hát Trên Cửa Hàng GPT: Công Cụ Mới Mẻ Cho…

Các mô hình tạo video như trình mô phỏng thế giới

60+ Lời nhắc ChatGPT cho các bài đăng hấp dẫn trên mạng xã…

Cải thiện lý luận toán học bằng cách giám sát quy trình

Liệu ChatGPT có thay thế được người viết nội dung không?

Đầu vào dân chủ cho AI

AI trong kinh doanh 2025: Vai trò của ChatGPT trong những đổi mới…

GPT là GPT: Một cái nhìn ban đầu về tiềm năng tác động…

Cách đổi Mật khẩu Chat GPT - Hướng dẫn đổi Pass Chat GPT 100% Thành công

Hướng dẫn Cách đăng nhập Chat GPT Nhanh nhất | Có hỗ trợ Miễn phí qua Teamview-Ultraview

Chat GPT Plus là gì? So sánh Chat GPT Plus với Chat GPT Miễn phí

Chat GPT bị giới hạn giải thích vì sao và cách khắc phục

Chat GPT là gì ? Cách đăng Ký Chat GPT Miễn Phí tại Việt Nam

AI trong kinh doanh 2025: Vai trò của ChatGPT trong những đổi mới trong tương lai

GPT là GPT: Một cái nhìn ban đầu về tiềm năng tác động của các mô hình ngôn ngữ lớn lên thị trường lao động

Có gì mới trong ChatGPT vào năm 2025?

GPT-4

ChatGPT đang thay đổi cách chúng ta viết?

Point-E: Một hệ thống tạo ra các đám mây điểm 3D từ các lời nhắc phức tạp

Chatgpt sẽ ảnh hưởng đến SEO như thế nào

Luật mở rộng cho mô hình phần thưởng tối ưu hóa quá mức

Trò chuyện GPT-4 - Tất cả những gì bạn cần biết về AI mạnh mẽ này

Giới thiệu Whisper

Chế độ nghiên cứu sâu ChatGPT là gì?

Đào tạo hiệu quả các mô hình ngôn ngữ để điền vào giữa

ChatGPT 2025: AI Thế Hệ Mới Sẵn Sàng Thay Đổi Ngành Viết Nội Dung

DALL·E 2 biện pháp giảm thiểu trước khi đào tạo

Cập nhật Big ChatGPT năm 2025: Cách mạng hóa tiếp thị kỹ thuật số với AI tiên tiến

Học chơi Minecraft với Video PreTraining

Chat GPT

Trí tuệ nhân tạo AI

Đăng ký tư vấn