.png)
Chúng tôi đã phát triển Sparse Transformer, một mạng nơ-ron sâu thiết lập kỷ lục mới trong việc dự đoán những gì sẽ xảy ra tiếp theo trong một chuỗi—cho dù là văn bản, hình ảnh hay âm thanh. Nó sử dụng cải tiến thuật toán của cơ chế chú ý để trích xuất các mẫu từ các chuỗi dài hơn 30 lần so với trước đây.
- Tài khoản ChatGPT 4 chính hãng giá rẻ với nhiều ưu đãi hấp dẫn!
Một thách thức hiện tại trong nghiên cứu AI là mô hình hóa các mối quan hệ phụ thuộc tinh tế, tầm xa trong dữ liệu phức tạp như hình ảnh, video hoặc âm thanh. Sparse Transformer kết hợp một THE(NN)TRÊNN)tái cấu trúc của THE(N2)TRÊN2) Máy biến áp (mở trong cửa sổ mới) cơ chế tự chú ý, cùng với một số cải tiến khác, để áp dụng trực tiếp vào các loại dữ liệu phong phú này. Trước đây, các mô hình được sử dụng trên các dữ liệu này được thiết kế riêng cho một miền hoặc khó mở rộng thành các chuỗi dài hơn vài nghìn phần tử. Ngược lại, mô hình của chúng tôi có thể mô hình hóa các chuỗi với hàng chục nghìn phần tử bằng cách sử dụng hàng trăm lớp, đạt được hiệu suất tiên tiến trên nhiều miền. Tại OpenAI, chúng tôi đang sử dụng nó để giúp chúng tôi xây dựng các hệ thống AI có khả năng hiểu thế giới tốt hơn.
Sự chú ý sâu sắc
Trong Transformers, mọi phần tử đầu ra đều được kết nối với mọi phần tử đầu vào và các trọng số giữa chúng được tính toán động dựa trên các tình huống, một quá trình được gọi là sự chú ý . Mặc dù người ta tin rằng điều này cho phép Transformers linh hoạt hơn các mô hình có mẫu kết nối cố định, nhưng trên thực tế, nó đòi hỏi phải tạo ra một N×NN×N ma trận chú ý cho mọi lớp và đầu chú ý, có thể tiêu tốn nhiều bộ nhớ khi áp dụng cho các kiểu dữ liệu có nhiều phần tử, như hình ảnh hoặc âm thanh thô.
Kiểu dữ liệu | Đã lưu trữ | Tính toán lại |
1024 mã thông báo văn bản (nhiều đoạn văn) | 1,0 GB | 16MB |
32x32x3 pixel (hình ảnh CIFAR-10) | 9,6 GB | 151MB |
64x64x3 pixel (hình ảnh Imagenet 64) | 154GB | 2,4GB |
24.000 mẫu (~2 giây âm thanh 12 kHz) | 590GB | 9,2 GB |
Lưu ý sử dụng bộ nhớ cho một máy biến áp sâu (64 lớp và 4 đầu) khi các ma trận được lưu trữ trong bộ nhớ hoặc được tính toán lại trong quá trình truyền ngược. Để tham khảo, GPU tiêu chuẩn được sử dụng cho học sâu thường có bộ nhớ từ 12-32 GB.
Một cách để giảm thiểu điều này là tính toán lại ma trận chú ý từ các điểm kiểm tra trong quá trình truyền ngược, một kỹ thuật đã được thiết lập tốt trong học sâu để giảm mức sử dụng bộ nhớ với chi phí tính toán nhiều hơn. Khi thực hiện cho ma trận chú ý trong Transformers, điều này có nghĩa là chi phí bộ nhớ lớn nhất trở nên độc lập với số lớp, cho phép chúng ta đào tạo các mạng có độ sâu lớn hơn đáng kể so với trước đây. Trong thực tế, chúng tôi thấy rằng Transformers có độ sâu lên tới 128 lớp hoạt động tốt hơn các mạng nông hơn trong các tác vụ chuẩn như CIFAR-10.
Để đào tạo các mô hình này với độ sâu tăng lên, chúng tôi đã thực hiện một số điều chỉnh đối với thứ tự các hoạt động trong bộ biến đổi và sửa đổi sơ đồ khởi tạo. Bạn có thể xem đầy đủ thông tin chi tiết trong bài báo của chúng tôi.
Sự chú ý thưa thớt
Tuy nhiên, ngay cả việc tính toán một ma trận chú ý duy nhất cũng có thể trở nên không thực tế đối với các đầu vào rất lớn. Thay vào đó, chúng tôi sử dụng các mẫu chú ý thưa thớt, trong đó mỗi vị trí đầu ra chỉ tính toán trọng số từ một tập hợp con các vị trí đầu vào. Khi tập hợp con nhỏ so với toàn bộ tập hợp đầu vào (ví dụ: NN các yếu tố thay vì N Ncác yếu tố), tính toán sự chú ý kết quả trở nên dễ xử lý ngay cả đối với các chuỗi rất dài, với độ phức tạp thuật toán là THE(NN)TRÊNN) thay vì THE(N2)TRÊN2).
Để đánh giá tính khả thi của phương pháp tiếp cận, trước tiên chúng tôi hình dung các mẫu chú ý đã học được cho các Transformers sâu trên hình ảnh, phát hiện ra rằng nhiều mẫu cho thấy các mẫu thưa thớt có cấu trúc và có thể diễn giải được. Mỗi hình ảnh bên dưới cho thấy các pixel đầu vào nào (được tô sáng màu trắng) được một đầu chú ý nhất định chú ý để dự đoán giá trị tiếp theo trong hình ảnh. Khi các phần đầu vào tập trung vào các tập hợp con nhỏ và cho thấy mức độ đều đặn cao, lớp có thể thích ứng với sự thưa thớt. Một mẫu của chúng được hiển thị ở đây cho mô hình 128 lớp trên hình ảnh CIFAR-10
Trong khi nhiều lớp hiển thị cấu trúc thưa thớt, một số lớp hiển thị rõ ràng sự chú ý động trải dài trên toàn bộ hình ảnh. Để duy trì khả năng học các mẫu như vậy của mạng, chúng tôi đã triển khai phân tích hai chiều của ma trận chú ý, trong đó mạng có thể chú ý đến tất cả các vị trí thông qua hai bước chú ý thưa thớt.
.png)
Phiên bản đầu tiên, sự chú ý sải bước , tương đương với mỗi vị trí chú ý đến hàng và cột của nó, và tương tự như mẫu chú ý được mạng học được ở trên. (Lưu ý rằng sự chú ý của cột có thể được xây dựng tương đương như chú ý đến hàng của ma trận chuyển vị). Phiên bản thứ hai, sự chú ý cố định , chú ý đến một cột cố định và các phần tử sau phần tử cột mới nhất, một mẫu mà chúng tôi thấy hữu ích khi dữ liệu không phù hợp với cấu trúc hai chiều (như văn bản). Để biết thêm chi tiết, chúng tôi giới thiệu độc giả đến bài báo của chúng tôi.
Kết quả thực nghiệm
Máy biến áp thưa thớt thiết lập điểm số tiên tiến mới cho việc ước tính mật độ của CIFAR-10, Enwik8 và Imagenet 64.
CIFAR10 | Bit trên mỗi dim |
PixelCNN++ (Salimans và cộng sự, 2017) | 2,92 |
Máy biến đổi hình ảnh (Parmar và cộng sự, 2018) | 2,90 |
PixelSNAIL (Chen và cộng sự, 2017) | 2,85 |
Máy biến áp thưa thớt 59M (256W, 128L, 2H) | 2,80 |
Enwik8 | Bit trên mỗi byte |
Tự chú ý sâu sắc hơn (Al-Rfou và cộng sự, 2018) | 1.06 |
Máy biến áp-XL 88M (Dai và cộng sự, 2018) | 1.03 |
Transformer-XL 277M (Đại và cộng sự, 2018) | 0,99 |
Máy biến áp thưa thớt 95M (512W, 30L, 8H) | 0,99 |
Hình ảnh 64x64 | Bit trên mỗi dim |
PixelCNN có kiểm soát (van den Oord và cộng sự, 2016) | 3.57 |
Đa thang đo song song (Reed et al, 2017) | 3.7 |
SPN 150M (Menick và Kalchbrenner, 2018) | 3.52 |
Máy biến áp thưa thớt 152M (512W, 48L, 16H) | 3,44 |
Hiệu suất mô hình hóa mật độ theo bit trên byte (hoặc dim) trên nhiều tập dữ liệu chuẩn. M biểu thị hàng triệu tham số được sử dụng trong mạng, W là chiều rộng của mạng, L là số lớp và H là số đầu.
Chúng tôi cũng thấy rằng sự chú ý thưa thớt đạt được mức mất mát thấp hơn sự chú ý đầy đủ, ngoài ra còn nhanh hơn đáng kể (xem bài báo của chúng tôi để so sánh). Điều này có thể chỉ ra một sai lệch quy nạp hữu ích từ các mẫu thưa thớt của chúng tôi hoặc một vấn đề tối ưu hóa cơ bản với sự chú ý dày đặc.
Tạo hình ảnh
Các máy biến áp sử dụng sự chú ý thưa thớt dường như có khái niệm về cấu trúc toàn cầu, có thể được đánh giá định tính bằng cách xem xét các hình ảnh hoàn thiện. Ở đây chúng ta hình dung một mô hình được đào tạo trên 64×6464×64Hình ảnhNet:
.png)
Tạo dạng sóng âm thanh thô
Sparse Transformers cũng có thể được điều chỉnh để tạo ra âm thanh thô thay vì hình ảnh chỉ bằng cách thay đổi vị trí nhúng. Khi học sâu mở rộng sang các kiểu dữ liệu mới, chúng tôi tin rằng việc dễ dàng chỉ định các độ lệch quy nạp với lớp mạng này sẽ là một công cụ hữu ích.
Mô hình này được đào tạo trên các clip nhạc cổ điển thô và sử dụng sự chú ý thưa thớt để tạo ra các chuỗi có độ dài 65.000. Điều này tương ứng với ~5 giây âm thanh thô và chúng tôi đã nối nhiều mẫu lại với nhau trong mỗi clip bên dưới.
Mã phát hành
Thông thường, việc triển khai sự chú ý thưa thớt sẽ liên quan đến việc cắt các ma trận truy vấn và khóa thành các khối, do đó để dễ dàng thử nghiệm, chúng tôi đã triển khai một bộ hạt nhân thưa thớt khối thực hiện hiệu quả các hoạt động này trên GPU. Chúng tôi mã nguồn mở các hạt nhân này và cung cấp các hàm chú ý thưa thớt ví dụ trong kho lưu trữ này (mở trong cửa sổ mới).
Công việc tương lai và những hạn chế
+ Các mẫu chú ý thưa thớt mà chúng tôi giới thiệu chỉ là những bước đầu tiên theo hướng mô hình hóa hiệu quả các chuỗi dài. Chúng tôi cho rằng việc khám phá các mẫu và kết hợp khác nhau của sự thưa thớt là hữu ích và việc học các mẫu thưa thớt là một hướng nghiên cứu đặc biệt hứa hẹn cho thế hệ kiến trúc mạng nơ-ron tiếp theo.
+ Ngay cả với những cải tiến mà chúng tôi mô tả ở trên, việc tạo chuỗi tự hồi quy vẫn có vẻ không thực tế đối với hình ảnh hoặc video có độ phân giải rất cao. Tuy nhiên, các hoạt động chú ý được tối ưu hóa mà chúng tôi đã giới thiệu có thể là các nguyên mẫu hữu ích để kết hợp với các phương pháp tiếp cận khác để mô hình hóa dữ liệu có chiều cao, như các phương pháp tiếp cận đa tỷ lệ.
Nếu bạn quan tâm đến việc phát triển năng lực AI và giúp thúc đẩy sứ mệnh đảm bảo AI mang lại lợi ích cho nhân loại, chúng tôi đang tuyển dụng !
Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ với nhiều ưu đãi đặc biệt trong ngày hôm nay

Cách đổi Mật khẩu Chat GPT - Hướng dẫn đổi Pass Chat GPT 100% Thành công
Hướng dẫn Cách đăng nhập Chat GPT Nhanh nhất | Có hỗ trợ Miễn phí qua Teamview-Ultraview
Chat GPT Plus là gì? So sánh Chat GPT Plus với Chat GPT Miễn phí
Chat GPT bị giới hạn giải thích vì sao và cách khắc phục
Chat GPT là gì ? Cách đăng Ký Chat GPT Miễn Phí tại Việt Nam