Các tế bào thần kinh đa phương thức trong mạng lưới thần kinh nhân tạo

Chúng tôi đã phát hiện ra các tế bào thần kinh trong CLIP phản ứng với cùng một khái niệm cho dù được trình bày theo nghĩa đen, tượng trưng hay khái niệm. Điều này có thể giải thích độ chính xác của CLIP trong việc phân loại các bản trình bày trực quan đáng ngạc nhiên của các khái niệm và cũng là một bước quan trọng để hiểu các mối liên kết và thành kiến ​​mà CLIP và các mô hình tương tự học được.

Mười lăm năm trước, Quiroga và cộng sự đã phát hiện ra rằng não người sở hữu các tế bào thần kinh đa phương thức. Các tế bào thần kinh này phản ứng với các cụm khái niệm trừu tượng tập trung xung quanh một chủ đề cấp cao chung, thay vì bất kỳ đặc điểm thị giác cụ thể nào. Nổi tiếng nhất trong số này là tế bào thần kinh “Halle Berry”, một tế bào thần kinh được nêu trong cả tạp chí  Scientific American (mở trong cửa sổ mới) và  tờ New York Times (mở trong cửa sổ mới), phản hồi lại các bức ảnh, bản phác thảo và văn bản “Halle Berry” (nhưng không phải các tên khác).

Hai tháng trước, OpenAI đã công bố  CLIP , một hệ thống thị giác đa năng phù hợp với hiệu suất của ResNet-50, nhưng vượt trội hơn các hệ thống thị giác hiện có trên một số tập dữ liệu đầy thách thức nhất. Mỗi tập dữ liệu đầy thách thức này,  ObjectNet ,  ImageNet Rendition và  ImageNet Sketch , đều kiểm tra độ bền của mô hình để không chỉ nhận dạng được các biến dạng hoặc thay đổi đơn giản về ánh sáng hoặc tư thế, mà còn để hoàn thành quá trình trừu tượng hóa và tái tạo—phác thảo, phim hoạt hình và thậm chí là tượng của các vật thể.

Bây giờ, chúng tôi đang công bố khám phá của mình về sự hiện diện của các tế bào thần kinh đa phương thức trong CLIP. Ví dụ, một tế bào thần kinh như vậy là tế bào thần kinh "Người Nhện" (có sự tương đồng đáng kể với tế bào thần kinh "Halle Berry") phản ứng với hình ảnh một con nhện, hình ảnh của văn bản "nhện" và nhân vật truyện tranh "Người Nhện" trong trang phục hoặc minh họa.

Khám phá của chúng tôi về các tế bào thần kinh đa phương thức trong CLIP cho chúng ta manh mối về những gì có thể là cơ chế chung của cả hệ thống thị giác tổng hợp và tự nhiên—trừu tượng hóa. Chúng tôi khám phá ra rằng các lớp cao nhất của CLIP sắp xếp hình ảnh như một tập hợp ý tưởng ngữ nghĩa lỏng lẻo, cung cấp một lời giải thích đơn giản cho cả tính linh hoạt của mô hình và tính nhỏ gọn của biểu diễn.

Sử dụng các công cụ diễn giải, chúng tôi cung cấp cái nhìn chưa từng có vào các khái niệm trực quan phong phú tồn tại trong các trọng số của CLIP. Trong CLIP, chúng tôi khám phá các khái niệm cấp cao bao trùm một tập hợp con lớn của từ vựng thị giác của con người—các khu vực địa lý, biểu cảm khuôn mặt, biểu tượng tôn giáo, người nổi tiếng, v.v. Bằng cách thăm dò những gì mỗi tế bào thần kinh ảnh hưởng đến hạ lưu, chúng tôi có thể có được cái nhìn thoáng qua về cách CLIP thực hiện phân loại của nó.

Các tế bào thần kinh đa phương thức trong CLIP

Bài báo của chúng tôi (mở trong cửa sổ mới) dựa trên gần một thập kỷ nghiên cứu về việc giải thích các mạng tích chập, bắt đầu bằng quan sát rằng nhiều kỹ thuật cổ điển này có thể áp dụng trực tiếp cho CLIP. Chúng tôi sử dụng hai công cụ để hiểu các hoạt động của mô hình:  hình ảnh hóa tính năng , giúp tối đa hóa hoạt động của nơ-ron bằng cách thực hiện tối ưu hóa dựa trên gradient trên đầu vào và  ví dụ về tập dữ liệu ,  ​giúp xem xét sự phân phối của các hình ảnh kích hoạt tối đa cho một nơ-ron từ một tập dữ liệu.

Sử dụng các kỹ thuật đơn giản này, chúng tôi thấy rằng phần lớn các tế bào thần kinh trong CLIP RN50x4 (một ResNet-50 được mở rộng gấp 4 lần bằng quy tắc mở rộng EfficientNet) có thể dễ dàng diễn giải. Thật vậy, các tế bào thần kinh này dường như là những ví dụ cực đoan của "các tế bào thần kinh đa diện", tế bào thần kinh phản ứng với nhiều trường hợp riêng biệt, chỉ ở mức độ trừu tượng cao hơn.

Thật vậy, chúng tôi đã rất ngạc nhiên khi thấy nhiều loại trong số này dường như phản ánh các tế bào thần kinh ở thùy thái dương giữa được ghi nhận ở những bệnh nhân động kinh có điện cực độ sâu trong sọ. Chúng bao gồm các tế bào thần kinh phản ứng với cảm xúc, loài động vật, và những người nổi tiếng. 

Nhưng cuộc điều tra của chúng tôi về CLIP tiết lộ nhiều sự trừu tượng kỳ lạ và tuyệt vời hơn nữa, bao gồm các tế bào thần kinh dường như đếm [ 17 (mở trong cửa sổ mới), 202 (mở trong cửa sổ mới),  310 (mở trong cửa sổ mới)], các tế bào thần kinh phản ứng với phong cách nghệ thuật [ 75 (mở trong cửa sổ mới),  587 (mở trong cửa sổ mới),  122 (mở trong cửa sổ mới)], thậm chí cả những hình ảnh có bằng chứng về sự thay đổi kỹ thuật số [ 1640 (mở trong cửa sổ mới)].

Các khái niệm vắng mặt

Mặc dù phân tích này cho thấy phạm vi khái niệm rộng lớn, chúng tôi lưu ý rằng một phân tích đơn giản ở cấp độ nơ-ron không thể biểu diễn tài liệu đầy đủ về hành vi của mô hình. Ví dụ, các tác giả của CLIP đã chứng minh rằng mô hình có khả năng định vị địa lý rất chính xác, với độ chi tiết mở rộng xuống cấp độ của một thành phố và thậm chí là một khu phố. Trên thực tế, chúng tôi xin kể một giai thoại: chúng tôi đã nhận thấy, bằng cách chạy ảnh cá nhân của mình qua CLIP, rằng CLIP thường có thể nhận ra nếu một bức ảnh được chụp ở San Francisco, và đôi khi thậm chí là cả khu phố (ví dụ: "Twin Peaks").

Tuy nhiên, bất chấp mọi nỗ lực của chúng tôi, chúng tôi vẫn chưa tìm thấy một neuron “San Francisco”, cũng như không có vẻ như từ sự quy kết rằng San Francisco phân tách tốt thành các khái niệm đơn vị có ý nghĩa như “California” và “thành phố”. Chúng tôi tin rằng thông tin này được mã hóa trong các hoạt động của mô hình ở đâu đó, nhưng theo một cách kỳ lạ hơn, hoặc là một hướng hoặc là một đa tạp phức tạp khác. Chúng tôi tin rằng đây là một hướng hữu ích cho nghiên cứu sâu hơn.

Làm thế nào các tế bào thần kinh đa phương thức tạo thành

Các neuron đa phương thức này có thể cung cấp cho chúng ta cái nhìn sâu sắc về cách CLIP thực hiện phân loại. Với một đầu dò tuyến tính thưa thớt, chúng ta có thể dễ dàng kiểm tra trọng số của CLIP để xem khái niệm nào kết hợp để đạt được phân loại cuối cùng cho phân loại ImageNet:

Lớp heo đất có vẻ như là sự kết hợp của một neuron “tài chính” cùng với một neuron sứ. Neuron Người Nhện được tham chiếu trong phần đầu tiên của bài báo cũng là một máy dò nhện và đóng vai trò quan trọng trong việc phân loại lớp “nhện chuồng”.

Đối với phân loại văn bản, một quan sát chính là các khái niệm này được chứa trong các tế bào thần kinh theo cách mà, tương tự như mục tiêu word2vec, gần  như tuyến tính . Do đó, các khái niệm tạo thành một đại số đơn giản hoạt động tương tự như một đầu dò tuyến tính. Bằng cách tuyến tính hóa sự chú ý, chúng ta cũng có thể kiểm tra bất kỳ câu nào, giống như một đầu dò tuyến tính, như được hiển thị bên dưới:

 

Khi thăm dò cách CLIP hiểu các từ, có vẻ như đối với mô hình, từ “ngạc nhiên” ám chỉ một số không chỉ là một số biện pháp gây sốc, mà là một cú sốc có loại rất cụ thể, có lẽ kết hợp với sự thích thú hoặc ngạc nhiên. “Gần gũi” bao gồm một nụ cười nhẹ nhàng và trái tim, nhưng không phải là bệnh tật. Chúng tôi lưu ý rằng điều này cho thấy một sự hiểu biết giản lược về toàn bộ trải nghiệm của con người về sự gần gũi - việc trừ đi bệnh tật ngăn cản, ví dụ, những khoảnh khắc gần gũi với những người thân yêu đang bị bệnh. Chúng tôi tìm thấy nhiều sự thiếu sót như vậy khi thăm dò sự hiểu biết của CLIP về ngôn ngữ

Những sai lầm của sự trừu tượng

Mức độ trừu tượng trong CLIP làm nổi lên một vectơ tấn công mới mà chúng tôi tin rằng chưa từng xuất hiện trong các hệ thống trước đây. Giống như nhiều mạng lưới sâu, các biểu diễn ở các lớp cao nhất của mô hình hoàn toàn bị chi phối bởi các trừu tượng cấp cao như vậy. Tuy nhiên, điều phân biệt CLIP là vấn đề về mức độ—các nơ-ron đa phương thức của CLIP khái quát hóa trên cả nghĩa đen và nghĩa bóng, điều này có thể là con dao hai lưỡi.

Thông qua một loạt các thí nghiệm được xây dựng cẩn thận, chúng tôi chứng minh rằng chúng tôi có thể khai thác hành vi giản lược này để đánh lừa mô hình đưa ra các phân loại vô lý. Chúng tôi đã quan sát thấy rằng sự kích thích của các tế bào thần kinh trong CLIP thường có thể kiểm soát được bằng phản ứng của nó với  hình ảnh văn bản , cung cấp một vectơ đơn giản để tấn công mô hình.

Nơ-ron tài chính [ 1330 (mở trong cửa sổ mới)], ví dụ, phản hồi với hình ảnh heo đất, nhưng cũng phản hồi với chuỗi “$$$”. Bằng cách buộc neuron tài chính kích hoạt, chúng ta có thể đánh lừa mô hình của mình để phân loại một con chó thành heo đất.

Các cuộc tấn công trong tự nhiên

Chúng tôi gọi những cuộc tấn công này là  các cuộc tấn công kiểu chữ . Chúng tôi tin rằng các cuộc tấn công như được mô tả ở trên không chỉ đơn thuần là mối quan tâm về mặt học thuật. Bằng cách khai thác khả năng đọc văn bản mạnh mẽ của mô hình, chúng tôi thấy rằng ngay cả  ảnh chụp văn bản viết tay  cũng thường có thể đánh lừa mô hình. Giống như Adversarial Patch, 21  cuộc tấn công này hoạt động trong tự nhiên; nhưng không giống như các cuộc tấn công như vậy, nó không đòi hỏi công nghệ nào ngoài bút và giấy.

Chúng tôi cũng tin rằng những cuộc tấn công này cũng có thể diễn ra dưới hình thức tinh vi hơn, ít gây chú ý hơn. Một hình ảnh, được cung cấp cho CLIP, được trừu tượng hóa theo nhiều cách tinh vi và phức tạp, và những sự trừu tượng hóa này có thể trừu tượng hóa quá mức các mô hình chung—quá đơn giản hóa và, do đó, quá khái quát hóa.

Sự thiên vị và khái quát hóa quá mức

Mô hình của chúng tôi, mặc dù được đào tạo trên một tập hợp con được quản lý của internet, vẫn kế thừa nhiều thành kiến ​​và liên kết không được kiểm soát của nó. Nhiều liên kết mà chúng tôi phát hiện ra có vẻ vô hại, nhưng chúng tôi đã phát hiện ra một số trường hợp mà CLIP nắm giữ các liên kết có thể dẫn đến tác hại về mặt đại diện, chẳng hạn như hạ thấp một số cá nhân hoặc nhóm nhất định.

Ví dụ, chúng tôi đã quan sát một tế bào thần kinh “Trung Đông”  [1895] (mở trong cửa sổ mới) có liên quan đến chủ nghĩa khủng bố; và một tế bào thần kinh “di cư” [395] (mở trong cửa sổ mới) phản ứng với Châu Mỹ La-tinh. Chúng tôi thậm chí còn tìm thấy một tế bào thần kinh có thể kích hoạt cả người da đen và khỉ đột [ 1257(mở trong cửa sổ mới)], phản ánh các sự cố gắn thẻ ảnh trước đó trong các mô hình khác mà chúng tôi coi là không thể chấp nhận được.

Những mối liên kết này đặt ra những thách thức rõ ràng đối với các ứng dụng của những hệ thống thị giác mạnh mẽ như vậy. Cho dù được tinh chỉnh hay sử dụng zero-shot, rất có thể những thành kiến ​​và mối liên kết này sẽ vẫn tồn tại trong hệ thống, với những tác động của chúng biểu hiện theo cả cách hữu hình và gần như vô hình trong quá trình triển khai. Nhiều hành vi có thành kiến ​​có thể khó dự đoán trước, khiến việc đo lường và hiệu chỉnh chúng trở nên khó khăn. Chúng tôi tin rằng những công cụ có thể diễn giải này có thể hỗ trợ các học viên có khả năng ngăn ngừa các vấn đề tiềm ẩn, bằng cách phát hiện ra một số mối liên kết và sự mơ hồ này trước thời hạn.

Hiểu biết của chúng tôi về CLIP vẫn đang phát triển và chúng tôi vẫn đang xác định xem chúng tôi có phát hành phiên bản lớn của CLIP hay không và phát hành như thế nào. Chúng tôi hy vọng rằng việc cộng đồng tiếp tục khám phá các phiên bản đã phát hành cũng như các công cụ mà chúng tôi công bố hôm nay sẽ giúp thúc đẩy hiểu biết chung về các hệ thống đa phương thức cũng như cung cấp thông tin cho quá trình ra quyết định của chúng tôi.

Phần kết luận

Cùng với việc xuất bản “Nơ-ron đa phương thức trong mạng nơ-ron nhân tạo”, chúng tôi cũng phát hành một số công cụ mà chúng tôi đã sử dụng để hiểu CLIP—  Kính hiển vi OpenAI (mở trong cửa sổ mới) danh mục đã được cập nhật với các hình ảnh trực quan về tính năng, ví dụ về tập dữ liệu và hình ảnh trực quan về tính năng văn bản cho mọi neuron trong CLIP RN50x4. Chúng tôi cũng đang phát hành trọng số của CLIP RN50x4 (mở trong cửa sổ mới)và RN101 (mở trong cửa sổ mới) để tiếp tục hỗ trợ cho các nghiên cứu như vậy. Chúng tôi tin rằng các cuộc điều tra về CLIP này chỉ mới bắt đầu hiểu được hành vi của CLIP và chúng tôi mời cộng đồng nghiên cứu tham gia để cải thiện sự hiểu biết của chúng tôi về CLIP và các mô hình tương tự.

Xem thêm: mua tài khoản ChatGPT 4 chính hãng giá rẻ 

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !