zalo
Chat ngay

Giới thiệu về Activation Atlases

Chúng tôi đã tạo ra các bản đồ kích hoạt trong sự hợp tácvới các nhà nghiên cứu của Google), một kỹ thuật mới để trực quan hóa những tương tác giữa các tế bào thần kinh có thể biểu thị. Khi các hệ thống AI được triển khai trong các bối cảnh ngày càng nhạy cảm, việc hiểu rõ hơn về các quy trình ra quyết định nội bộ của chúng sẽ cho phép chúng ta xác định điểm yếu và điều tra các lỗi.

Mạng lưới nơ-ron hiện đại  thường bị chỉ trích như là một “hộp đen”. Mặc dù thành công trong nhiều vấn đề, chúng ta vẫn hiểu hạn chế về cách họ đưa ra quyết định nội bộ. Bản đồ kích hoạt là một cách mới để xem một số điều diễn ra bên trong hộp đó.

Bản đồ kích hoạt được xây dựng dựa trên hình ảnh hóa đặc điểm, một kỹ thuật nghiên cứu những gì các lớp ẩn của mạng nơ-ron có thể biểu diễn. Sớm công việc trong hình ảnh đặc điểm chủ yếu tập trung vào các tế bào thần kinh riêng lẻ. Bằng cách thu thập hàng trăm nghìn ví dụ về các tế bào thần kinh tương tác và trực quan hóa chúng, bản đồ kích hoạt sẽ chuyển từ các tế bào thần kinh riêng lẻ sang trực quan hóa không gian mà các tế bào thần kinh đó cùng nhau đại diện.

Hiểu được những gì đang diễn ra bên trong mạng nơ-ron không chỉ là vấn đề tò mò khoa học—việc chúng ta thiếu hiểu biết cản trở khả năng kiểm tra mạng nơ-ron và, trong bối cảnh rủi ro cao, đảm bảo chúng an toàn. Thông thường, nếu ai đó định triển khai một phần mềm quan trọng, người đó có thể xem xét tất cả các đường dẫn qua mã hoặc thậm chí thực hiện xác minh chính thức, nhưng với mạng nơ-ron, khả năng thực hiện loại đánh giá này của chúng ta hiện đã bị hạn chế hơn nhiều. Với bản đồ kích hoạt, con người có thể phát hiện ra các vấn đề không lường trước được trong mạng nơ-ron—ví dụ, những nơi mà mạng dựa vào các mối tương quan không chính xác để phân loại hình ảnh hoặc nơi mà việc sử dụng lại một tính năng giữa hai lớp dẫn đến các lỗi lạ. Con người thậm chí có thể sử dụng sự hiểu biết này để “ tấn công"mô hình, sửa đổi hình ảnh để đánh lừa nó.

Ví dụ, có thể tạo một loại atlas kích hoạt đặc biệt để hiển thị cách mạng phân biệt chảo rán và chảo woks. Nhiều thứ chúng ta thấy là những gì người ta mong đợi. Chảo rán có hình vuông hơn, trong khi chảo woks tròn hơn và sâu hơn. Nhưng có vẻ như mô hình đã học được rằng chảo rán và chảo woks cũng có thể được phân biệt bằng thức ăn xung quanh chúng—cụ thể, chảo woks được hỗ trợ bởi sự hiện diện của mì. Thêm mì vào góc của hình ảnh sẽ đánh lừa mô hình 45% thời gian! Điều này tương tự như công việc như các bản vá đối nghịch nhưng dựa trên sự hiểu biết của con người.

Các cuộc tấn công khác do con người thiết kế dựa trên việc mạng lưới quá tải một số bộ dò tính năng thường hiệu quả hơn (một số thành công tới 93% thời gian). Nhưng ví dụ về noodle đặc biệt thú vị vì đây là trường hợp mô hình chọn ra thứ gì đó có tương quan nhưng không phải là nguyên nhân với câu trả lời đúng. Điều này có điểm tương đồng về mặt cấu trúc với các loại lỗi mà chúng ta có thể đặc biệt lo lắng, chẳng hạn như các vấn đề về tính công bằng và thiên vị.

Bản đồ kích hoạt hoạt động tốt hơn chúng tôi dự đoán và dường như cho thấy mạnh mẽ rằng kích hoạt mạng lưới thần kinh có thể có ý nghĩa đối với con người. Điều này giúp chúng tôi lạc quan hơn rằng có thể đạt được khả năng diễn giải trong các mô hình thị giác theo nghĩa mạnh mẽ.

Chúng tôi rất vui mừng khi được thực hiện công việc này với  sự hợp tác với các nhà nghiên cứu tại Google. Chúng tôi tin rằng việc cùng nhau nghiên cứu về an toàn sẽ giúp tất cả chúng ta đảm bảo kết quả tốt nhất cho xã hội khi nghiên cứu AI tiến triển.

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !