Chúng tôi thấy rằng, cũng giống như một mô hình biến áp lớn được đào tạo trên ngôn ngữ có thể tạo ra văn bản mạch lạc, cùng một mô hình chính xác được đào tạo trên chuỗi pixel có thể tạo ra các mẫu và hoàn thiện hình ảnh mạch lạc . Bằng cách thiết lập mối tương quan giữa chất lượng mẫu và độ chính xác phân loại hình ảnh, chúng tôi chỉ ra rằng mô hình sinh tốt nhất của chúng tôi cũng chứa các tính năng cạnh tranh với các mạng tích chập hàng đầu trong bối cảnh không giám sát.
Giới thiệu
Học không giám sát và tự giám sát, hoặc học mà không có dữ liệu được gắn nhãn của con người, là một thách thức lâu dài của học máy. Gần đây, nó đã chứng kiến thành công đáng kinh ngạc trong ngôn ngữ, vì các mô hình biến đổi như BERT, tài khoản ChatGPT-4, RoBERTa, T5, và các biến thể khác đã đạt được hiệu suất cao nhất trên một loạt các tác vụ ngôn ngữ. Tuy nhiên, cùng một lớp mô hình rộng lớn đã không thành công trong việc tạo ra các đặc điểm mạnh để phân loại hình ảnh. Công việc của chúng tôi nhằm mục đích hiểu và thu hẹp khoảng cách này.
Các mô hình biến áp như BERT và GPT-2 không phụ thuộc vào miền, nghĩa là chúng có thể được áp dụng trực tiếp vào các chuỗi 1 chiều ở bất kỳ dạng nào. Khi chúng tôi đào tạo GPT-2 trên các hình ảnh được mở rộng thành các chuỗi pixel dài, mà chúng tôi gọi là iGPT, chúng tôi thấy rằng mô hình này dường như hiểu được các đặc điểm của hình ảnh 2 chiều như diện mạo và danh mục của đối tượng. Điều này được chứng minh bằng phạm vi đa dạng của các mẫu hình ảnh mạch lạc mà nó tạo ra, ngay cả khi không có sự hướng dẫn của nhãn do con người cung cấp. Một bằng chứng nữa là các tính năng từ mô hình đạt được hiệu suất tiên tiến trên một số tập dữ liệu phân loại và độ chính xác không giám sát gần như tiên tiến trên ImageNet.
Sự đánh giá | Bộ dữ liệu | Kết quả của chúng tôi | Kết quả tốt nhất không phải iGPT |
---|---|---|---|
Hồi quy logistic trên các tính năng đã học (thăm dò tuyến tính) | CIFAR-10 | 96.3 iGPT-L 32x32 với 1536 tính năng | 95.3 SimCLR với 8192 tính năng |
CIFAR-100 | 82.8 iGPT-L 32x32 với 1536 tính năng | 80.2 SimCLR với 8192 tính năng | |
STL-10 | 95.5 iGPT-L 32x32 với 1536 tính năng | 94.2 AMDIM với 8192 tính năng | |
Hình ảnhNet | 72.0 iGPT-XL với 15360 tính năng | 76.5 SimCLR với 8192 tính năng | |
Tinh chỉnh đầy đủ | CIFAR-10 | 99.0 iGPT-L 32x32, được đào tạo trên ImageNet | 99.0 GPipe, được đào tạo trên ImageNet |
Hình ảnh 32x32 | 66.3 iGPT-L 32x32 | 70.2 Lưới đẳng cự |
Chúng tôi chỉ hiển thị độ chính xác của đầu dò tuyến tính ImageNet cho iGPT-XL vì các thí nghiệm khác chưa hoàn thành trước khi chúng tôi cần chuyển sang các cơ sở siêu máy tính khác.
Bit-L, được đào tạo trên JFT (300 triệu hình ảnh với 18K lớp), đạt được kết quả là 99,3.
Để làm nổi bật tiềm năng của mô hình chuỗi sinh sản như một thuật toán học không giám sát mục đích chung, chúng tôi cố tình sử dụng cùng kiến trúc biến áp như GPT-2 trong ngôn ngữ. Do đó, chúng tôi yêu cầu nhiều tính toán hơn đáng kể để tạo ra các tính năng cạnh tranh với các tính năng từ các mạng tích chập không giám sát hàng đầu. Tuy nhiên, kết quả của chúng tôi cho thấy rằng khi đối mặt với một miền mới mà các tiên nghiệm mô hình chính xác chưa được biết, một GPT-2 lớn có thể học các tính năng tuyệt vời mà không cần phải lựa chọn thiết kế kiến trúc cụ thể cho miền.
- Tài khoản ChatGPT Plus chính hãng với nhiều ưu đãi hấp dẫn!
Từ ngôn ngữ GPT sang hình ảnh GPT
Trong ngôn ngữ, các thuật toán học không giám sát dựa vào dự đoán từ (như GPT-2 và BERT) đã cực kỳ thành công, đạt hiệu suất cao nhất trên một loạt các tác vụ ngôn ngữ. Một lý do có thể cho thành công này là các trường hợp tác vụ ngôn ngữ hạ lưu xuất hiện tự nhiên trong văn bản: các câu hỏi thường được theo sau bởi các câu trả lời (có thể giúp trả lời câu hỏi) và các đoạn văn thường được theo sau bởi các bản tóm tắt (có thể giúp tóm tắt). Ngược lại, các chuỗi pixel không chứa nhãn rõ ràng cho các hình ảnh mà chúng thuộc về.
Ngay cả khi không có sự giám sát rõ ràng này, vẫn có lý do tại sao GPT-2 trên hình ảnh có thể hoạt động: một máy biến áp đủ lớn được đào tạo về dự đoán pixel tiếp theo cuối cùng có thể học cách tạo ra các mẫu đa dạng với các đối tượng dễ nhận biết. Khi học được cách thực hiện như vậy, một ý tưởng được gọi là "Phân tích bằng tổng hợp" cho thấy rằng mô hình cũng sẽ biết về các danh mục đối tượng. Nhiều mô hình sinh sản ban đầu được thúc đẩy bởi ý tưởng này và gần đây hơn, BigBiGAN là một ví dụ tạo ra các mẫu và tính năng đáng khích lệ. Trong công trình của mình, trước tiên chúng tôi chỉ ra rằng các mô hình sinh sản tốt hơn đạt được hiệu suất phân loại mạnh hơn. Sau đó, thông qua việc tối ưu hóa GPT-2 cho các khả năng sinh sản, chúng tôi đạt được hiệu suất phân loại cấp cao nhất trong nhiều cài đặt, cung cấp thêm bằng chứng cho phân tích bằng tổng hợp.
Hướng tới học tập không giám sát chung
Mô hình hóa chuỗi sinh là một thuật toán học không giám sát phổ quát: vì tất cả các kiểu dữ liệu có thể được biểu diễn dưới dạng chuỗi byte, nên có thể áp dụng trực tiếp một bộ biến đổi cho bất kỳ kiểu dữ liệu nào mà không cần kỹ thuật bổ sung. Công trình của chúng tôi kiểm tra sức mạnh của tính tổng quát này bằng cách áp dụng trực tiếp kiến trúc được sử dụng để đào tạo GPT-2 về ngôn ngữ tự nhiên vào việc tạo hình ảnh. Chúng tôi cố tình chọn cách từ bỏ mã hóa thủ công bất kỳ kiến thức cụ thể nào về hình ảnh dưới dạng tích chập hoặc các kỹ thuật như chú ý tương đối, chú ý thưa thớt, và nhúng vị trí 2 chiều.
Do tính tổng quát của nó, phương pháp của chúng tôi đòi hỏi nhiều tính toán hơn đáng kể để đạt được hiệu suất cạnh tranh trong bối cảnh không giám sát. Thật vậy, các phương pháp tương phản vẫn là các phương pháp hiệu quả nhất về mặt tính toán để tạo ra các tính năng chất lượng cao từ hình ảnh. Tuy nhiên, khi chỉ ra rằng một mô hình biến áp không giám sát có thể cạnh tranh với các mạng tích chập không giám sát tốt nhất, chúng tôi cung cấp bằng chứng rằng có thể đánh đổi kiến thức miền được mã hóa thủ công để tính toán. Trong các miền mới, nơi không có nhiều kiến thức để mã hóa thủ công, tính toán tỷ lệ có vẻ là một kỹ thuật phù hợp để thử nghiệm.
Tiếp cận
Chúng tôi huấn luyện iGPT-S, iGPT-M và iGPT-L, các bộ biến đổi chứa lần lượt 76M, 455M và 1,4B tham số, trên ImageNet. Chúng tôi cũng huấn luyện iGPT-XL , một bộ biến đổi tham số 6,8 tỷ, trên sự kết hợp của ImageNet và hình ảnh từ web. Do chi phí tính toán lớn để mô hình hóa các chuỗi dài với sự chú ý dày đặc, chúng tôi huấn luyện ở độ phân giải thấp là 32x32, 48x48 và 64x64.
Mặc dù có thể hấp dẫn khi làm việc ở độ phân giải thậm chí còn thấp hơn để giảm thêm chi phí tính toán, nhưng các nghiên cứu trước đây đã chứng minh rằng hiệu suất của con người trong phân loại hình ảnh bắt đầu giảm nhanh chóng dưới các kích thước này. Thay vào đó, được thúc đẩy bởi bảng màu hiển thị ban đầu, chúng tôi tạo ra bảng màu 9 bit của riêng mình để biểu diễn các điểm ảnh. Sử dụng bảng màu này tạo ra độ dài chuỗi đầu vào ngắn hơn 3 lần so với bảng màu chuẩn (R, G, B), trong khi vẫn mã hóa màu một cách trung thực.
Kết quả thực nghiệm
Có hai phương pháp chúng tôi sử dụng để đánh giá hiệu suất mô hình, cả hai đều liên quan đến nhiệm vụ phân loại hạ lưu. Phương pháp đầu tiên, mà chúng tôi gọi là thăm dò tuyến tính, sử dụng mô hình đã được đào tạo để trích xuất các đặc điểm từ các hình ảnh trong tập dữ liệu hạ lưu, sau đó phù hợp với hồi quy logistic với các nhãn. Phương pháp thứ hai tinh chỉnh toàn bộ mô hình trên tập dữ liệu hạ lưu.
Vì dự đoán pixel tiếp theo rõ ràng không liên quan đến phân loại hình ảnh, nên các đặc điểm từ lớp cuối cùng có thể không phải là đặc điểm dự đoán tốt nhất trong danh mục đối tượng. Kết quả đầu tiên của chúng tôi cho thấy chất lượng đặc điểm là một hàm tăng mạnh, sau đó giảm nhẹ theo độ sâu. Hành vi này cho thấy rằng một mô hình tạo biến áp hoạt động theo hai giai đoạn: trong giai đoạn đầu tiên, mỗi vị trí thu thập thông tin từ ngữ cảnh xung quanh để xây dựng một đặc điểm hình ảnh theo ngữ cảnh. Trong giai đoạn thứ hai, đặc điểm theo ngữ cảnh này được sử dụng để giải quyết nhiệm vụ dự đoán pixel tiếp theo có điều kiện. Hiệu suất hai giai đoạn quan sát được của các đầu dò tuyến tính của chúng tôi gợi nhớ đến một mạng nơ-ron không giám sát khác, bộ mã hóa tự động thắt cổ chai, được thiết kế thủ công để sử dụng các đặc điểm ở giữa.
Chất lượng tính năng phụ thuộc rất nhiều vào lớp chúng ta chọn để đánh giá. Ngược lại với các mô hình có giám sát, các tính năng tốt nhất cho các mô hình sinh này nằm ở giữa mạng.
Kết quả tiếp theo của chúng tôi thiết lập mối liên hệ giữa hiệu suất tạo ra và chất lượng tính năng. Chúng tôi thấy rằng cả việc tăng quy mô mô hình và đào tạo nhiều lần lặp lại đều dẫn đến hiệu suất tạo ra tốt hơn, trực tiếp chuyển thành chất lượng tính năng tốt hơn.
Mỗi dòng theo dõi một mô hình trong suốt quá trình tiền đào tạo tạo sinh: các điểm đánh dấu chấm biểu thị các điểm kiểm tra tại các bước 131K, 262K, 524K và 1000K. Các độ dốc dương cho thấy mối liên hệ giữa hiệu suất tạo sinh được cải thiện và chất lượng tính năng được cải thiện. Các mô hình lớn hơn cũng tạo ra các tính năng tốt hơn các mô hình nhỏ hơn. iGPT-XL không được đưa vào vì nó được đào tạo trên một tập dữ liệu khác.
Khi chúng tôi đánh giá các tính năng của mình bằng cách sử dụng các đầu dò tuyến tính trên CIFAR-10, CIFAR-100 và STL-10, chúng tôi vượt trội hơn các tính năng từ tất cả các thuật toán chuyển giao có giám sát và không giám sát. Kết quả của chúng tôi cũng rất thuyết phục trong cài đặt tinh chỉnh đầy đủ.
Được đào tạo trước trên ImageNet | ||||
Sự đánh giá | Người mẫu | Sự chính xác | không có nhãn | có nhãn |
CIFAR-10 Đầu dò tuyến tính | ResNet-152 | 94.0 | ✔ | |
SimCLR | 95,3 | ✔ | ||
iGPT-L 32x32 | 96,3 | ✔ | ✔ | |
CIFAR-100 Đầu dò tuyến tính | ResNet-152 | 78.0 | ✔ | |
SimCLR | 80,2 | ✔ | ||
iGPT-L 32x32 | 82,8 | ✔ | ||
STL-10 Đầu dò tuyến tính | AMDIM-L | 94,2 | ✔ | |
iGPT-L 32x32 | 95,5 | ✔ | ||
CIFAR-10 Tinh chỉnh | Tự động tăng cường | 98,5 | ||
SimCLR | 98,6 | ✔ | ||
GPipe | 99.0 | ✔ | ||
iGPT-L | 99.0 | ✔ | ||
CIFAR-100 Tinh chỉnh | iGPT-L | 88,5 | ✔ | |
SimCLR | 89.0 | ✔ | ||
Tự động tăng cường | 89,3 | |||
Hiệu quảNet | 91,7 | ✔ |
So sánh độ chính xác của đầu dò tuyến tính và độ chính xác tinh chỉnh giữa các mô hình của chúng tôi và các mô hình hiệu suất cao nhất sử dụng chuyển giao ImageNet có giám sát hoặc không giám sát. Chúng tôi cũng bao gồm AutoAugment, mô hình hiệu suất cao nhất được đào tạo từ đầu đến cuối trên CIFAR.
Với sự hồi sinh của mối quan tâm đến việc học không giám sát và tự giám sát trên ImageNet, chúng tôi cũng đánh giá hiệu suất của các mô hình của mình bằng cách sử dụng các đầu dò tuyến tính trên ImageNet. Đây là một thiết lập đặc biệt khó khăn, vì chúng tôi không đào tạo ở độ phân giải đầu vào ImageNet tiêu chuẩn. Tuy nhiên, một đầu dò tuyến tính trên 1536 tính năng từ lớp iGPT-L tốt nhất được đào tạo trên hình ảnh 48x48 mang lại độ chính xác top-1 là 65,2%, vượt trội hơn AlexNet.
Các phương pháp đối chiếu thường báo cáo kết quả tốt nhất của chúng trên 8192 tính năng, vì vậy chúng tôi lý tưởng sẽ đánh giá iGPT với chiều nhúng là 8192 để so sánh. Tuy nhiên, việc đào tạo một mô hình như vậy là quá tốn kém, vì vậy thay vào đó, chúng tôi nối các tính năng từ nhiều lớp như một phép xấp xỉ. Thật không may, các tính năng của chúng tôi có xu hướng tương quan giữa các lớp, vì vậy chúng tôi cần nhiều tính năng hơn để có tính cạnh tranh. Lấy 15360 tính năng từ 5 lớp trong iGPT-XL mang lại độ chính xác top-1 là 72,0%, vượt trội hơn AMDIM, MoCo và CPC v2, nhưng vẫn kém hơn SimCLR ở một biên độ khá lớn.
Phương pháp | Độ phân giải đầu vào | Đặc trưng | Các tham số | Sự chính xác |
Vòng quay | nguyên bản | 8192 | 86 triệu | 55,4 |
iGPT-L | 32x32 | 1536 | 1362M | 60,3 |
BigBiGAN | nguyên bản | 16384 | 86 triệu | 61,3 |
iGPT-L | 48x48 | 1536 | 1362M | 65,2 |
AMDIM | nguyên bản | 8192 | 626M | 68,1 |
MoCo24 | nguyên bản | 8192 | 375 triệu | 68,6 |
iGPT-XL | 64x64 | 3072 | 6801M | 68,7 |
SimCLR | nguyên bản | 2048 | 24M | 69,3 |
CPC v2 | nguyên bản | 4096 | 303 triệu | 71,5 |
iGPT-XL | 64x64 | 3072 x5 | 6801M | 72.0 |
SimCLR | nguyên bản | 8192 | 375 triệu | 76,5 |
So sánh độ chính xác của đầu dò tuyến tính giữa các mô hình của chúng tôi và các mô hình tự giám sát tiên tiến. Chúng tôi đạt được hiệu suất cạnh tranh trong khi đào tạo ở độ phân giải đầu vào thấp hơn nhiều, mặc dù phương pháp của chúng tôi yêu cầu nhiều tham số và tính toán hơn.
Vì các mô hình ngôn ngữ bị che như BERT đã vượt trội hơn các mô hình tạo ra trên hầu hết các tác vụ ngôn ngữ, chúng tôi cũng đánh giá hiệu suất của BERT trên các mô hình hình ảnh của mình. Thay vì đào tạo mô hình của mình để dự đoán pixel tiếp theo dựa trên tất cả các pixel trước đó, chúng tôi che 15% pixel và đào tạo mô hình của mình để dự đoán chúng từ các pixel không bị che. Chúng tôi thấy rằng mặc dù hiệu suất thăm dò tuyến tính trên các mô hình BERT kém hơn đáng kể, nhưng chúng lại vượt trội trong quá trình tinh chỉnh:
So sánh tiền đào tạo tạo ra với tiền đào tạo BERT sử dụng iGPT-L ở độ phân giải đầu vào là 32 2 × 3. Màu đậm cho thấy hiệu suất tăng lên từ việc ghép các mặt nạ BERT. Chúng ta thấy rằng các mô hình tạo ra các tính năng tốt hơn nhiều so với các mô hình BERT sau khi đào tạo trước, nhưng các mô hình BERT bắt kịp sau khi tinh chỉnh.
Trong khi học không giám sát hứa hẹn các tính năng tuyệt vời mà không cần dữ liệu được gắn nhãn của con người, thì những tiến bộ đáng kể gần đây đã được thực hiện theo khuôn khổ dễ tha thứ hơn của học bán giám sát, cho phép một lượng hạn chế dữ liệu được gắn nhãn của con người. Các phương pháp bán giám sát thành công thường dựa vào các kỹ thuật thông minh như chính quy hóa tính nhất quán, tăng cường dữ liệu hoặc gắn nhãn giả, và các phương pháp tiếp cận hoàn toàn dựa trên khả năng tạo ra đã không cạnh tranh trong nhiều năm. Chúng tôi đánh giá iGPT-L trên một chuẩn mực cạnh tranh cho lĩnh vực phụ này và thấy rằng một đầu dò tuyến tính đơn giản trên các tính năng từ hình ảnh không được tăng cường vượt trội hơn Mean Teacher và MixMatch, mặc dù nó kém hơn FixMatch.
Người mẫu | 40 nhãn | 250 nhãn | 4000 nhãn |
Cải thiện GAN | — | — | 81,4 ± 2,3 |
Giáo viên trung bình | — | 67,7 ± 2,3 | 90,8 ± 0,2 |
Kết hợp | 52,5 ± 11,5 | 89,0 ± 0,9 | 93,6 ± 0,1 |
iGPT-L | 73,2 ± 01,5 | 87,6 ± 0,6 | 94,3 ± 0,1 |
ĐẠI HỌC | 71,0 ± 05,9 | 91,2 ± 1,1 | 95,1 ± 0,2 |
Sửa lỗi RA | 86,2 ± 03,4 | 94,9 ± 0,7 | 95,7 ± 0,1 |
CTA của FixMatch | 88,6 ± 03,4 | 94,9 ± 0,3 | 95,7 ± 0,2 |
So sánh hiệu suất trên CIFAR-10 dữ liệu thấp. Bằng cách tận dụng nhiều hình ảnh ImageNet không có nhãn, iGPT-L có thể vượt trội hơn các phương pháp như Mean Teacher và MixMatch nhưng vẫn kém hơn các phương pháp tiên tiến. Phương pháp tiếp cận học bán giám sát của chúng tôi rất đơn giản vì chúng tôi chỉ phù hợp với bộ phân loại hồi quy logistic trên các tính năng của iGPT-L mà không có bất kỳ sự gia tăng dữ liệu hoặc tinh chỉnh nào—một sự khác biệt đáng kể so với các phương pháp tiếp cận bán giám sát được thiết kế đặc biệt.
Hạn chế
Mặc dù chúng tôi đã chứng minh rằng iGPT có khả năng học các đặc điểm hình ảnh mạnh mẽ, nhưng vẫn còn những hạn chế đáng kể đối với cách tiếp cận của chúng tôi. Vì chúng tôi sử dụng bộ biến đổi trình tự chung được sử dụng cho GPT-2 trong ngôn ngữ, phương pháp của chúng tôi đòi hỏi lượng tính toán lớn: iGPT-L đã được đào tạo trong khoảng 2500 V100 ngày trong khi một mô hình MoCo 24 có hiệu suất tương tự có thể được đào tạo trong khoảng 70 V100 ngày.
Tương tự như vậy, chúng tôi mô hình hóa các đầu vào có độ phân giải thấp bằng cách sử dụng một bộ biến đổi, trong khi hầu hết các kết quả tự giám sát sử dụng các bộ mã hóa dựa trên tích chập có thể dễ dàng sử dụng các đầu vào ở độ phân giải cao. Một kiến trúc mới, chẳng hạn như một bộ biến đổi đa thang đo không phụ thuộc miền, có thể cần thiết để mở rộng hơn nữa. Với những hạn chế này, công trình của chúng tôi chủ yếu đóng vai trò là một minh chứng về khái niệm cho khả năng của các mô hình ngôn ngữ dựa trên bộ biến đổi lớn để học các biểu diễn không giám sát tuyệt vời trong các miền mới, mà không cần kiến thức miền được mã hóa cứng. Tuy nhiên, chi phí tài nguyên đáng kể để đào tạo các mô hình này và độ chính xác cao hơn của các phương pháp dựa trên mạng nơ-ron tích chập ngăn cản các biểu diễn này khỏi các ứng dụng thực tế trong thế giới thực trong miền thị giác.
Cuối cùng, các mô hình sinh sản có thể biểu hiện các sai lệch là hậu quả của dữ liệu mà chúng đã được đào tạo. Nhiều sai lệch trong số này là hữu ích, chẳng hạn như giả định rằng sự kết hợp của các điểm ảnh màu nâu và màu xanh lá cây đại diện cho một nhánh cây phủ đầy lá, sau đó sử dụng sai lệch này để tiếp tục hình ảnh. Nhưng một số sai lệch này sẽ có hại, khi được xem xét thông qua lăng kính công bằng và biểu diễn. Ví dụ, nếu mô hình phát triển một khái niệm trực quan về một nhà khoa học có xu hướng thiên về nam giới, thì nó có thể liên tục hoàn thiện hình ảnh của các nhà khoa học với những người có ngoại hình nam giới, thay vì sự kết hợp của nhiều giới tính. Chúng tôi hy vọng rằng các nhà phát triển sẽ cần phải chú ý nhiều hơn đến dữ liệu mà họ đưa vào hệ thống của mình và hiểu rõ hơn về cách dữ liệu đó liên quan đến các sai lệch trong các mô hình đã đào tạo.
Phần kết luận
Chúng tôi đã chỉ ra rằng bằng cách đánh đổi kiến thức 2 chiều cho thang đo và bằng cách chọn các tính năng dự đoán từ giữa mạng, một bộ chuyển đổi chuỗi có thể cạnh tranh với các mạng tích chập hàng đầu để phân loại hình ảnh không giám sát. Đáng chú ý, chúng tôi đã đạt được kết quả của mình bằng cách áp dụng trực tiếp mô hình ngôn ngữ GPT-4 vào việc tạo hình ảnh. Kết quả của chúng tôi cho thấy rằng do tính đơn giản và tổng quát của nó, một bộ chuyển đổi chuỗi được cung cấp đủ khả năng tính toán cuối cùng có thể là một cách hiệu quả để học các tính năng tuyệt vời trong nhiều lĩnh vực.