Chúng tôi giới thiệu một mạng nơ-ron có tên là CLIP, có thể học hiệu quả các khái niệm trực quan từ giám sát ngôn ngữ tự nhiên. CLIP có thể được áp dụng cho bất kỳ chuẩn phân loại trực quan nào chỉ bằng cách cung cấp tên của các danh mục trực quan cần nhận dạng, tương tự như khả năng "zero-shot" của GPT-2 và GPT-3.
Mặc dù học sâu đã cách mạng hóa thị giác máy tính, nhưng các phương pháp tiếp cận hiện tại có một số vấn đề lớn: các tập dữ liệu thị giác thông thường đòi hỏi nhiều công sức và chi phí để tạo ra trong khi chỉ dạy một tập hợp hẹp các khái niệm trực quan; các mô hình thị giác tiêu chuẩn chỉ hiệu quả ở một và chỉ một nhiệm vụ duy nhất, và đòi hỏi nỗ lực đáng kể để thích ứng với một nhiệm vụ mới; và các mô hình hoạt động tốt trên các điểm chuẩn lại có hiệu suất kém đáng thất vọng trong các bài kiểm tra ứng suất, gây nghi ngờ về toàn bộ phương pháp tiếp cận học sâu đối với thị giác máy tính.
Chúng tôi trình bày một mạng nơ-ron nhằm mục đích giải quyết những vấn đề này: nó được đào tạo trên nhiều hình ảnh khác nhau với nhiều loại giám sát ngôn ngữ tự nhiên có sẵn trên internet. Theo thiết kế, mạng có thể được hướng dẫn bằng ngôn ngữ tự nhiên để thực hiện nhiều loại chuẩn phân loại, mà không cần tối ưu hóa trực tiếp cho hiệu suất của chuẩn, tương tự như " zero-shot"(mở trong cửa sổ mới)” khả năng của GPT-2 và GPT-3. Đây là một thay đổi quan trọng: bằng cách không trực tiếp tối ưu hóa cho điểm chuẩn, chúng tôi cho thấy nó trở nên đại diện hơn nhiều: hệ thống của chúng tôi thu hẹp “khoảng cách mạnh mẽ” này tới 75% trong khi vẫn phù hợp với hiệu suất của ResNet-50 ban đầu trên ImageNet (mở trong cửa sổ mới) không bắn mà không sử dụng bất kỳ ví dụ nào có nhãn 1.28M gốc.
CLIP ( Contrastive Language–Image Pre-training ) dựa trên một khối lượng lớn công trình về chuyển giao zero-shot, giám sát ngôn ngữ tự nhiên và học đa phương thức. Ý tưởng về học dữ liệu bằng không đã có từ hơn một thập kỷ nhưng cho đến gần đây chủ yếu được nghiên cứu trong thị giác máy tính như một cách khái quát hóa thành các danh mục đối tượng chưa từng thấy. Một hiểu biết quan trọng là tận dụng ngôn ngữ tự nhiên như một không gian dự đoán linh hoạt để cho phép khái quát hóa và chuyển giao. Năm 2013, Richer Socher và các đồng tác giả tại Stanford đã phát triển một bằng chứng về khái niệm bằng cách đào tạo một mô hình trên CIFAR-10 để đưa ra dự đoán trong không gian nhúng vectơ từ và cho thấy mô hình này có thể dự đoán hai lớp chưa từng thấy. Cùng năm đó, DeVISE đã mở rộng quy mô phương pháp tiếp cận này và chứng minh rằng có thể tinh chỉnh một mô hình ImageNet để nó có thể khái quát hóa để dự đoán chính xác các đối tượng bên ngoài bộ đào tạo 1000 ban đầu.
Nguồn cảm hứng lớn nhất cho CLIP là công trình của Ang Li và các đồng tác giả của ông tại FAIR, những người đã chứng minh vào năm 2016 rằng sử dụng giám sát ngôn ngữ tự nhiên để cho phép chuyển zero-shot sang một số tập dữ liệu phân loại thị giác máy tính hiện có, chẳng hạn như tập dữ liệu ImageNet chuẩn. Họ đã đạt được điều này bằng cách tinh chỉnh một CNN ImageNet để dự đoán một tập hợp các khái niệm trực quan rộng hơn nhiều (n-gram trực quan) từ văn bản của tiêu đề, mô tả và thẻ của 30 triệu bức ảnh Flickr và có thể đạt được độ chính xác 11,5% trên zero-shot ImageNet.
Cuối cùng, CLIP là một phần của nhóm các bài báo xem xét lại việc học các biểu diễn trực quan từ giám sát ngôn ngữ tự nhiên trong năm qua. Dòng công việc này sử dụng các kiến trúc hiện đại hơn như Transformer và bao gồm VirTex, đã khám phá mô hình ngôn ngữ hồi quy tự động, ICMLM, đã nghiên cứu mô hình ngôn ngữ bị che giấu và ConVIRT, đã nghiên cứu cùng một mục tiêu tương phản mà chúng tôi sử dụng cho CLIP nhưng trong lĩnh vực hình ảnh y tế.
Tiếp cận
Chúng tôi chỉ ra rằng việc mở rộng một tác vụ tiền đào tạo đơn giản là đủ để đạt được hiệu suất zero-shot cạnh tranh trên nhiều tập dữ liệu phân loại hình ảnh. Phương pháp của chúng tôi sử dụng một nguồn giám sát có sẵn dồi dào: văn bản được ghép nối với hình ảnh được tìm thấy trên internet. Dữ liệu này được sử dụng để tạo tác vụ đào tạo proxy sau cho CLIP: cho một hình ảnh, dự đoán trong số 32.768 đoạn văn bản được lấy mẫu ngẫu nhiên, đoạn nào thực sự được ghép nối với đoạn văn bản đó trong tập dữ liệu của chúng tôi.
Để giải quyết nhiệm vụ này, trực giác của chúng tôi cho rằng các mô hình CLIP sẽ cần học cách nhận dạng nhiều khái niệm trực quan khác nhau trong hình ảnh và liên kết chúng với tên của chúng. Do đó, các mô hình CLIP sau đó có thể được áp dụng cho các nhiệm vụ phân loại trực quan gần như tùy ý. Ví dụ, nếu nhiệm vụ của một tập dữ liệu là phân loại ảnh chó so với ảnh mèo, chúng tôi sẽ kiểm tra đối với từng hình ảnh xem mô hình CLIP có dự đoán mô tả văn bản "ảnh chó " hay "ảnh mèo " có nhiều khả năng được ghép nối với nó hơn không.
CLIP được thiết kế để giảm thiểu một số vấn đề chính trong phương pháp học sâu tiêu chuẩn đối với thị giác máy tính:
Bộ dữ liệu tốn kém : Học sâu cần rất nhiều dữ liệu và các mô hình thị giác theo truyền thống được đào tạo trên các bộ dữ liệu được gắn nhãn thủ công, tốn kém để xây dựng và chỉ cung cấp giám sát cho một số lượng hạn chế các khái niệm trực quan được xác định trước. Bộ dữ liệu ImageNet, một trong những nỗ lực lớn nhất trong không gian này, yêu cầu hơn 25.000 công nhân để chú thích 14 triệu hình ảnh cho 22.000 danh mục đối tượng. Ngược lại, CLIP học từ các cặp văn bản-hình ảnh đã có sẵn công khai trên internet. Việc giảm nhu cầu về các bộ dữ liệu được gắn nhãn lớn tốn kém đã được nghiên cứu rộng rãi bởi các công trình trước đây, đáng chú ý là học tự giám sát, phương pháp tương phản, phương pháp tự đào tạo, và mô hình tạo sinh.
Hẹp : Một mô hình ImageNet có thể dự đoán tốt 1000 danh mục ImageNet, nhưng đó là tất cả những gì nó có thể làm "ngay khi xuất xưởng". Nếu chúng ta muốn thực hiện bất kỳ tác vụ nào khác, một học viên ML cần xây dựng một tập dữ liệu mới, thêm một đầu ra và tinh chỉnh mô hình. Ngược lại, CLIP có thể được điều chỉnh để thực hiện nhiều tác vụ phân loại trực quan khác nhau mà không cần các ví dụ đào tạo bổ sung. Để áp dụng CLIP cho một tác vụ mới, tất cả những gì chúng ta cần làm là "nói" cho bộ mã hóa văn bản của CLIP biết tên của các khái niệm trực quan của tác vụ và nó sẽ đưa ra một bộ phân loại tuyến tính của các biểu diễn trực quan của CLIP. Độ chính xác của bộ phân loại này thường cạnh tranh với các mô hình được giám sát đầy đủ.
Chúng tôi trình bày các dự đoán ngẫu nhiên, không được chọn lọc, về bộ phân loại CLIP không cần thực hiện trên các ví dụ từ nhiều tập dữ liệu khác nhau bên dưới.
Hiệu suất thực tế kém : Các hệ thống học sâu thường được báo cáo là đạt được hiệu suất của con người hoặc thậm chí là siêu phàm trên các chuẩn mực về thị giác, tuy nhiên khi triển khai trong thực tế, hiệu suất của chúng có thể thấp hơn nhiều so với kỳ vọng do chuẩn mực đặt ra. Nói cách khác, có một khoảng cách giữa "hiệu suất chuẩn" và "hiệu suất thực". Chúng tôi phỏng đoán rằng khoảng cách này xảy ra vì các mô hình "gian lận" bằng cách chỉ tối ưu hóa hiệu suất trên chuẩn mực, giống như một học sinh vượt qua kỳ thi bằng cách chỉ học các câu hỏi trong kỳ thi những năm trước. Ngược lại, mô hình CLIP có thể được đánh giá trên các chuẩn mực mà không cần phải đào tạo trên dữ liệu của chúng, vì vậy nó không thể "gian lận" theo cách này. Điều này dẫn đến hiệu suất chuẩn mực của nó đại diện nhiều hơn cho hiệu suất của nó trong thực tế. Để xác minh "giả thuyết gian lận", chúng tôi cũng đo lường cách hiệu suất của CLIP thay đổi khi nó có thể "nghiên cứu" cho ImageNet. Khi một bộ phân loại tuyến tính được lắp vào các tính năng của CLIP, nó sẽ cải thiện độ chính xác của CLIP trên bộ kiểm tra ImageNet gần 10%. Tuy nhiên, bộ phân loại này không hoạt động tốt hơn trung bình trên bộ đánh giá gồm 7 tập dữ liệu khác đo hiệu suất “mạnh mẽ”.
Những điểm chính
CLIP có hiệu quả cao
CLIP học từ dữ liệu không được lọc, rất đa dạng và rất nhiễu, và được thiết kế để sử dụng theo cách zero-shot. Chúng tôi biết từ GPT-2 và 3 rằng các mô hình được đào tạo trên dữ liệu như vậy có thể đạt được hiệu suất zero shot hấp dẫn; tuy nhiên, các mô hình như vậy đòi hỏi phải tính toán đào tạo đáng kể. Để giảm lượng tính toán cần thiết, chúng tôi tập trung vào các phương pháp thuật toán để cải thiện hiệu quả đào tạo của phương pháp tiếp cận của chúng tôi.
Chúng tôi báo cáo hai lựa chọn thuật toán dẫn đến tiết kiệm đáng kể chi phí tính toán. Lựa chọn đầu tiên là áp dụng mục tiêu tương phản để kết nối văn bản với hình ảnh. Ban đầu, chúng tôi đã khám phá phương pháp tiếp cận hình ảnh sang văn bản, tương tự như VirTex, nhưng gặp khó khăn khi mở rộng quy mô để đạt được hiệu suất tiên tiến. Trong các thí nghiệm quy mô vừa và nhỏ, chúng tôi thấy rằng mục tiêu tương phản mà CLIP sử dụng hiệu quả hơn từ 4x đến 10x trong phân loại ImageNet không cần chụp. Lựa chọn thứ hai là áp dụng Vision Transformer, giúp chúng tôi tăng thêm 3x hiệu quả tính toán so với ResNet tiêu chuẩn. Cuối cùng, mô hình CLIP có hiệu suất tốt nhất của chúng tôi được đào tạo trên 256 GPU trong 2 tuần, tương tự như các mô hình hình ảnh quy mô lớn hiện có. 37 , 23 , 38 , 36
Ban đầu chúng tôi đã khám phá các mô hình ngôn ngữ đào tạo hình ảnh sang chú thích nhưng thấy cách tiếp cận này gặp khó khăn khi chuyển đổi không có cảnh quay. Trong thử nghiệm 16 ngày GPU này, một mô hình ngôn ngữ chỉ đạt được độ chính xác 16% trên ImageNet sau khi đào tạo 400 triệu hình ảnh. CLIP hiệu quả hơn nhiều và đạt được độ chính xác tương tự nhanh hơn khoảng 10 lần.
CLIP linh hoạt và tổng quát
Vì chúng học được nhiều khái niệm trực quan trực tiếp từ ngôn ngữ tự nhiên, nên các mô hình CLIP linh hoạt và tổng quát hơn đáng kể so với các mô hình ImageNet hiện có. Chúng tôi thấy rằng chúng có thể thực hiện nhiều tác vụ khác nhau bằng zero-shot. Để xác thực điều này, chúng tôi đã đo hiệu suất zero-shot của CLIP trên hơn 30 tập dữ liệu khác nhau bao gồm các tác vụ như phân loại đối tượng chi tiết, định vị địa lý, nhận dạng hành động trong video và OCR. Đặc biệt, việc học OCR là một ví dụ về hành vi thú vị không xảy ra trong các mô hình ImageNet tiêu chuẩn. Ở trên, chúng tôi hình dung một dự đoán ngẫu nhiên không được chọn lọc từ mỗi bộ phân loại zero-shot.
Phát hiện này cũng được phản ánh trên đánh giá học tập biểu diễn tiêu chuẩn sử dụng các đầu dò tuyến tính. Mô hình CLIP tốt nhất vượt trội hơn mô hình ImageNet công khai tốt nhất, Noisy Student EfficientNet-L2, trên 20 trong số 26 tập dữ liệu chuyển giao khác nhau mà chúng tôi đã thử nghiệm.
Hạn chế
Trong khi CLIP thường hoạt động tốt trong việc nhận dạng các đối tượng phổ biến, nó lại gặp khó khăn trong các nhiệm vụ trừu tượng hoặc có hệ thống hơn như đếm số lượng đối tượng trong một hình ảnh và trong các nhiệm vụ phức tạp hơn như dự đoán khoảng cách gần nhất của chiếc ô tô trong ảnh. Trên hai tập dữ liệu này, CLIP zero-shot chỉ tốt hơn một chút so với đoán ngẫu nhiên. CLIP zero-shot cũng gặp khó khăn khi so sánh với các mô hình nhiệm vụ cụ thể về phân loại rất chi tiết, chẳng hạn như phân biệt giữa các mẫu ô tô, các biến thể của máy bay hoặc các loài hoa.
CLIP cũng vẫn có khả năng khái quát kém đối với các hình ảnh không được đề cập trong tập dữ liệu tiền đào tạo của nó. Ví dụ, mặc dù CLIP học được một hệ thống OCR có khả năng, nhưng khi được đánh giá trên các chữ số viết tay từ tập dữ liệu MNIST, thì CLIP zero-shot chỉ đạt được độ chính xác 88%, thấp hơn nhiều so với 99,75% con người trong tập dữ liệu. Cuối cùng, chúng tôi đã quan sát thấy rằng các bộ phân loại zero-shot của CLIP có thể nhạy cảm với cách diễn đạt hoặc cách diễn đạt và đôi khi cần phải thử và sai "kỹ thuật nhanh" để hoạt động tốt.
Tác động rộng hơn
CLIP cho phép mọi người thiết kế bộ phân loại của riêng họ và loại bỏ nhu cầu về dữ liệu đào tạo cụ thể cho từng tác vụ. Cách thức thiết kế các lớp này có thể ảnh hưởng lớn đến cả hiệu suất mô hình và độ lệch của mô hình. Ví dụ, chúng tôi thấy rằng khi đưa ra một tập hợp các nhãn bao gồm nhãn chủng tộc Fairface 39 C và một số thuật ngữ nghiêm trọng như "tội phạm", "động vật", v.v., mô hình có xu hướng phân loại hình ảnh của những người từ 0 đến 20 tuổi vào danh mục nghiêm trọng với tỷ lệ ~32,3%. Tuy nhiên, khi chúng tôi thêm lớp "trẻ em" vào danh sách các lớp có thể, hành vi này giảm xuống còn ~8,7%.
Ngoài ra, vì CLIP không cần dữ liệu đào tạo cụ thể cho từng tác vụ nên nó có thể mở khóa một số tác vụ ngách dễ dàng hơn. Một số tác vụ này có thể gây ra rủi ro liên quan đến quyền riêng tư hoặc giám sát và chúng tôi khám phá mối quan tâm này bằng cách nghiên cứu hiệu suất của CLIP trong việc nhận dạng người nổi tiếng. CLIP có độ chính xác hàng đầu là 59,2% đối với phân loại hình ảnh người nổi tiếng "ngoài đời thực" khi chọn từ 100 ứng viên và độ chính xác hàng đầu là 43,3% khi chọn từ 1000 lựa chọn có thể. Mặc dù đáng chú ý là đạt được những kết quả này với quá trình đào tạo trước không phụ thuộc vào tác vụ, nhưng hiệu suất này không cạnh tranh khi so sánh với các mô hình cấp độ sản xuất có sẵn rộng rãi. Chúng tôi tiếp tục khám phá những thách thức mà CLIP đặt ra trong bài báo của mình (mở trong cửa sổ mới) và chúng tôi hy vọng rằng công trình này sẽ thúc đẩy các nghiên cứu trong tương lai về đặc điểm của các khả năng, thiếu sót và thiên vị của các mô hình như vậy. Chúng tôi rất vui mừng được tham gia cùng cộng đồng nghiên cứu về những câu hỏi như vậy.
Phần kết luận
Với CLIP, chúng tôi đã thử nghiệm liệu việc đào tạo trước không phụ thuộc vào tác vụ trên ngôn ngữ tự nhiên quy mô internet, vốn đã thúc đẩy một bước đột phá gần đây trong NLP, cũng có thể được tận dụng để cải thiện hiệu suất học sâu cho các lĩnh vực khác hay không. Chúng tôi rất phấn khích trước những kết quả mà chúng tôi đã thấy cho đến nay khi áp dụng cách tiếp cận này vào thị giác máy tính. Giống như họ GPT, CLIP học được nhiều loại tác vụ khác nhau trong quá trình đào tạo trước mà chúng tôi chứng minh thông qua chuyển giao zero-shot. Chúng tôi cũng được khuyến khích bởi những phát hiện của mình trên ImageNet cho thấy đánh giá zero-shot là thước đo đại diện hơn cho khả năng của một mô hình.
Xem thêm: mua tài khoản ChatGPT Plus và tài khoản ChatGPT-4 chính hãng giá rẻ