Chúng tôi khám phá việc đào tạo quy mô lớn các mô hình tạo ra dữ liệu video. Cụ thể, chúng tôi đào tạo các mô hình khuếch tán có điều kiện văn bản kết hợp trên video và hình ảnh có thời lượng, độ phân giải và tỷ lệ khung hình thay đổi. Chúng tôi tận dụng kiến trúc máy biến áp hoạt động trên các bản vá không thời gian của video và mã ẩn hình ảnh. Mô hình lớn nhất của chúng tôi, Sora, có khả năng tạo ra một phút video có độ trung thực cao. Kết quả của chúng tôi cho thấy việc mở rộng các mô hình tạo video là một con đường đầy hứa hẹn hướng tới việc xây dựng các trình mô phỏng mục đích chung của thế giới vật lý.
- Tài khoản ChatGPT 4 chính hãng giá rẻ tại đây
Nhiều công trình trước đây đã nghiên cứu mô hình hóa tạo sinh dữ liệu video bằng nhiều phương pháp khác nhau, bao gồm mạng hồi quy, mạng đối nghịch tạo sinh, bộ biến đổi hồi quy tự động, và các mô hình khuếch tán. Các công trình này thường tập trung vào một phạm trù hẹp về dữ liệu hình ảnh, vào các video ngắn hơn hoặc vào các video có kích thước cố định. Sora là một mô hình tổng quát về dữ liệu hình ảnh—nó có thể tạo ra các video và hình ảnh trải dài trên nhiều thời lượng, tỷ lệ khung hình và độ phân giải khác nhau, lên đến một phút video độ nét cao.
Biến dữ liệu trực quan thành các bản vá
Chúng tôi lấy cảm hứng từ các mô hình ngôn ngữ lớn có được khả năng tổng quát bằng cách đào tạo trên dữ liệu quy mô internet. Thành công của mô hình LLM một phần là nhờ sử dụng các mã thông báo thống nhất một cách tinh tế các phương thức đa dạng của văn bản—mã, toán học và nhiều ngôn ngữ tự nhiên khác nhau. Trong công trình này, chúng tôi xem xét cách các mô hình tạo dữ liệu trực quan có thể kế thừa những lợi ích như vậy. Trong khi LLM có mã thông báo văn bản, Sora có các bản vá trực quan . Các bản vá trước đây đã được chứng minh là một biểu diễn hiệu quả cho các mô hình dữ liệu trực quan. Chúng tôi thấy rằng các bản vá là một biểu diễn có khả năng mở rộng cao và hiệu quả để đào tạo các mô hình tạo trên nhiều loại video và hình ảnh khác nhau.
Ở cấp độ cao, chúng tôi biến video thành các bản vá bằng cách đầu tiên nén video thành không gian tiềm ẩn có chiều thấp hơn, và sau đó phân tích biểu diễn thành các bản vá không thời gian.
Mạng nén video
Chúng tôi đào tạo một mạng lưới làm giảm tính đa chiều của dữ liệu trực quan. Mạng lưới này lấy video thô làm đầu vào và đưa ra một biểu diễn tiềm ẩn được nén theo cả thời gian và không gian. Sora được đào tạo và sau đó tạo ra các video trong không gian tiềm ẩn được nén này. Chúng tôi cũng đào tạo một mô hình giải mã tương ứng để ánh xạ các tiềm ẩn được tạo trở lại không gian pixel.
Các bản vá tiềm ẩn không gian thời gian
Với một video đầu vào được nén, chúng tôi trích xuất một chuỗi các bản vá không gian thời gian hoạt động như các mã thông báo biến đổi. Sơ đồ này cũng hoạt động với hình ảnh vì hình ảnh chỉ là video có một khung hình duy nhất. Biểu diễn dựa trên bản vá của chúng tôi cho phép Sora đào tạo trên video và hình ảnh có độ phân giải, thời lượng và tỷ lệ khung hình thay đổi. Tại thời điểm suy luận, chúng tôi có thể kiểm soát kích thước của video được tạo bằng cách sắp xếp các bản vá được khởi tạo ngẫu nhiên trong một lưới có kích thước phù hợp.
Biến áp tỷ lệ cho việc tạo video
Sora là một mô hình khuếch tán; với các bản vá nhiễu đầu vào (và thông tin điều kiện như lời nhắc văn bản), nó được đào tạo để dự đoán các bản vá "sạch" ban đầu. Quan trọng là, Sora là một bộ biến đổi khuếch tán. Các bộ biến đổi đã chứng minh các đặc tính mở rộng đáng chú ý trên nhiều lĩnh vực, bao gồm mô hình ngôn ngữ, thị giác máy tính, và tạo hình ảnh.
Trong công trình này, chúng tôi thấy rằng bộ biến đổi khuếch tán cũng có hiệu quả như mô hình video. Dưới đây, chúng tôi trình bày so sánh các mẫu video với các hạt giống và đầu vào cố định khi quá trình đào tạo tiến triển. Chất lượng mẫu cải thiện đáng kể khi tính toán đào tạo tăng lên.
Thời lượng, độ phân giải, tỷ lệ khung hình thay đổi
Các phương pháp tiếp cận trước đây để tạo hình ảnh và video thường thay đổi kích thước, cắt xén hoặc cắt bớt video theo kích thước chuẩn—ví dụ: video 4 giây ở độ phân giải 256x256. Chúng tôi thấy rằng thay vào đó, việc đào tạo dữ liệu ở kích thước gốc của nó mang lại một số lợi ích.
Tính linh hoạt của mẫu
Sora có thể lấy mẫu video màn hình rộng 1920x1080p, video dọc 1080x1920 và mọi thứ ở giữa. Điều này cho phép Sora tạo nội dung cho các thiết bị khác nhau trực tiếp theo tỷ lệ khung hình gốc của chúng. Nó cũng cho phép chúng tôi nhanh chóng tạo nguyên mẫu nội dung ở kích thước nhỏ hơn trước khi tạo ở độ phân giải đầy đủ—tất cả đều có cùng một mô hình.
Chúng tôi thấy rằng việc đào tạo trên video ở tỷ lệ khung hình gốc của chúng cải thiện bố cục và khung hình. Chúng tôi so sánh Sora với một phiên bản mô hình của chúng tôi cắt tất cả các video đào tạo thành hình vuông, đây là thông lệ phổ biến khi đào tạo các mô hình tạo hình. Mô hình được đào tạo trên các hình vuông cắt (bên trái) đôi khi tạo ra các video mà chủ thể chỉ được nhìn thấy một phần. Để so sánh, các video từ Sora (bên phải) có khung hình được cải thiện.
Đào tạo hệ thống tạo văn bản thành video đòi hỏi một lượng lớn video có phụ đề văn bản tương ứng. Chúng tôi áp dụng kỹ thuật thêm phụ đề được giới thiệu trong DALL·E 3 cho video. Đầu tiên, chúng tôi đào tạo một mô hình phụ đề có tính mô tả cao và sau đó sử dụng nó để tạo phụ đề văn bản cho tất cả video trong bộ đào tạo của chúng tôi. Chúng tôi thấy rằng đào tạo trên phụ đề video có tính mô tả cao cải thiện độ trung thực của văn bản cũng như chất lượng tổng thể của video.
Tương tự như DALL·E 3, chúng tôi cũng tận dụng GPT để biến lời nhắc ngắn của người dùng thành phụ đề chi tiết dài hơn được gửi đến mô hình video. Điều này cho phép Sora tạo video chất lượng cao theo đúng lời nhắc của người dùng.
Tất cả các kết quả ở trên và trong trang đích của chúng tôi đều hiển thị các mẫu văn bản thành video. Nhưng Sora cũng có thể được nhắc nhở bằng các đầu vào khác, chẳng hạn như hình ảnh hoặc video có sẵn. Khả năng này cho phép Sora thực hiện nhiều tác vụ chỉnh sửa hình ảnh và video—tạo video lặp hoàn hảo, hoạt hình hóa hình ảnh tĩnh, kéo dài video về phía trước hoặc phía sau theo thời gian, v.v.
Mở rộng video đã tạo
Sora cũng có khả năng kéo dài video, hoặc về phía trước hoặc ngược lại theo thời gian. Dưới đây là ba video được kéo dài ngược lại theo thời gian bắt đầu từ một phân đoạn của video được tạo. Kết quả là, mỗi video trong ba video bắt đầu khác nhau, nhưng cả ba video đều dẫn đến cùng một kết thúc.
Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ