zalo
Chat ngay

Kiểm tra độ bền vững trước những đối thủ không lường trước

Chúng tôi đã phát triển một phương pháp để đánh giá liệu một bộ phân loại mạng nơ-ron có thể bảo vệ đáng tin cậy chống lại các cuộc tấn công đối nghịch không thấy trong quá trình đào tạo hay không. Phương pháp của chúng tôi tạo ra một số liệu mới, UAR (Unforeseen Attack Robustness), đánh giá tính mạnh mẽ của một mô hình duy nhất chống lại một cuộc tấn công không lường trước và nhấn mạnh nhu cầu đo lường hiệu suất trên phạm vi đa dạng hơn của các cuộc tấn công không lường trước.

Mạng nơ-ron hiện đại đã đạt được độ chính xác cao trên nhiều nhiệm vụ chuẩn mực. Tuy nhiên, chúng vẫn dễ bị ảnh hưởng bởi  các ví dụ đối nghịch , các biến dạng nhỏ nhưng được chế tạo cẩn thận của các đầu vào do đối thủ tạo ra để đánh lừa mạng. Ví dụ, ví dụ đối nghịch với L∞ L∞​Độ méo dưới đây khác với hình ảnh gốc nhiều nhất là 32 trong mỗi giá trị pixel RGB; con người vẫn có thể phân loại hình ảnh đã thay đổi, nhưng chắc chắn là mạng nơ-ron tiêu chuẩn đã phân loại sai.

Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ!

Các hệ thống AI triển khai trong tự nhiên sẽ cần phải mạnh mẽ trước các cuộc tấn công không lường trước được, nhưng hầu hết các biện pháp phòng thủ cho đến nay đều tập trung vào các loại tấn công cụ thể đã biết. Lĩnh vực này đã đạt được tiến bộ trong việc tăng cường các mô hình chống lại các cuộc tấn công như vậy; tuy nhiên, khả năng chống lại một loại biến dạng  thường làm không chuyển khoản đến độ bền chống lại các cuộc tấn công không lường trước được của các nhà thiết kế mô hình. Do đó, việc đánh giá chỉ dựa trên một loại biến dạng duy nhất có thể mang lại cảm giác an toàn sai lầm về một mô hình trong tự nhiên, có thể vẫn dễ bị tấn công không lường trước như kính mắt giả và nhãn dán đối nghịch.

 

Một ví dụ về độ mạnh đối nghịch không chuyển giao tốt. Việc tăng cường độ mạnh đối nghịch chống lại Biến dạng A ban đầu làm tăng độ mạnh đối với cả Biến dạng A và B. Tuy nhiên, khi chúng ta tăng cường độ mạnh hơn nữa, độ mạnh đối nghịch bị ảnh hưởng đối với Biến dạng B nhưng vẫn giữ nguyên đối với Biến dạng A; (A = _L_∞​, B = _L_1​). Độ chính xác của mô hình chống lại Biến dạng A đạt đỉnh ở mức tăng cường độ mạnh là 8 vì mức này đủ để chống lại cuộc tấn công và việc tăng cường độ mạnh hơn nữa sẽ làm giảm độ chính xác sạch; xem toàn bộ bài báo để biết chi tiết.

Nguyên tắc phương pháp

Chúng tôi đã tạo ra một phương pháp ba bước để đánh giá hiệu suất của một mô hình chống lại một loại biến dạng mới được giữ lại. Phương pháp của chúng tôi đánh giá chống lại các cuộc tấn công không lường trước khác nhau ở nhiều kích thước biến dạng và so sánh kết quả với một biện pháp phòng thủ mạnh có hiểu biết về loại biến dạng. Nó cũng tạo ra một số liệu mới, UAR, đánh giá độ mạnh đối nghịch của các mô hình chống lại các loại biến dạng không lường trước.

Đánh giá dựa trên các loại biến dạng không lường trước khác nhau

Các bài báo tiêu biểu về phòng thủ đối đầu chỉ đánh giá dựa trên những nghiên cứu rộng rãi L∞L∞​hoặc L2 L2​các loại biến dạng. Tuy nhiên, chúng tôi  hiển thị rằng việc đánh giá so với các biến dạng cung cấp thông tin rất giống nhau về tính mạnh mẽ đối nghịch. Chúng tôi kết luận rằng việc đánh giá so với LP LP​​ biến dạng không đủ để dự đoán độ mạnh đối nghịch chống lại các loại biến dạng khác. Thay vào đó, chúng tôi đề xuất rằng các nhà nghiên cứu đánh giá các mô hình chống lại các biến dạng đối nghịch không giống với các biến dạng được sử dụng trong đào tạo. Chúng tôi cung cấp L1L1​, L2 L2​-Các cuộc tấn công JPEG, Elastic và Fog là điểm khởi đầu. Chúng tôi cung cấp các triển khai, mô hình được đào tạo trước và hiệu chuẩn cho nhiều loại tấn công khác nhau trong gói mã của chúng tôi.

Chọn một phạm vi rộng các kích thước biến dạng được hiệu chuẩn theo các mô hình mạnh

Chúng tôi thấy rằng việc xem xét phạm vi kích thước biến dạng quá hẹp có thể đảo ngược các kết luận định tính về tính mạnh mẽ của đối thủ. Để chọn một phạm vi, chúng tôi kiểm tra các hình ảnh được tạo ra bởi một cuộc tấn công ở các kích thước biến dạng khác nhau và chọn phạm vi lớn nhất mà các hình ảnh vẫn có thể nhận dạng được bởi con người. Tuy nhiên, như được hiển thị bên dưới, một cuộc tấn công với ngân sách biến dạng lớn chỉ sử dụng nó để chống lại các biện pháp phòng thủ mạnh. Chúng tôi khuyên bạn nên chọn một phạm vi kích thước biến dạng được hiệu chuẩn bằng cách đánh giá so với các mô hình được đào tạo theo đối thủ (chúng tôi cũng cung cấp các kích thước được hiệu chuẩn cho nhiều loại tấn công khác nhau trong  gói mã của mình).

So sánh độ mạnh mẽ đối nghịch với các mô hình được đào tạo đối nghịch

Chúng tôi đã phát triển một số liệu mới, UAR, so sánh độ mạnh của một mô hình chống lại một cuộc tấn công với quá trình đào tạo đối kháng chống lại cuộc tấn công đó. Đào tạo đối kháng là một biện pháp phòng thủ mạnh mẽ sử dụng kiến ​​thức về đối thủ bằng cách đào tạo trên các hình ảnh bị tấn công đối kháng.  Điểm UAR gần 100 chống lại một cuộc tấn công đối kháng không lường trước ngụ ý hiệu suất tương đương với một biện pháp phòng thủ có kiến ​​thức trước về cuộc tấn công, khiến đây trở thành một mục tiêu đầy thách thức.

Chúng tôi đã tính toán điểm UAR của các mô hình được đào tạo đối nghịch cho một số loại biến dạng khác nhau. Như được hiển thị bên dưới, độ mạnh mẽ do đào tạo đối nghịch mang lại không chuyển giao rộng rãi sang các biến dạng không lường trước được. Trên thực tế, độ mạnh mẽ chống lại một biến dạng đã biết có thể làm giảm độ mạnh mẽ chống lại các biến dạng không lường trước được. Những kết quả này nhấn mạnh nhu cầu đánh giá chống lại các cuộc tấn công đa dạng hơn đáng kể như Elastic, Fog, Gabor và Snow.

Các bước tiếp theo

Chúng tôi hy vọng rằng các nhà nghiên cứu phát triển các mô hình mạnh mẽ đối nghịch sẽ sử dụng phương pháp của chúng tôi để đánh giá chống lại một tập hợp đa dạng hơn các cuộc tấn công không lường trước được.  Mã của chúng tôi bao gồm một bộ các cuộc tấn công, mô hình được đào tạo đối nghịch và hiệu chuẩn cho phép tính toán UAR dễ dàng.

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !