.png)
Ví dụ đối nghịch là đầu vào cho các mô hình học máy mà kẻ tấn công cố tình thiết kế để khiến mô hình mắc lỗi; chúng giống như ảo ảnh quang học đối với máy móc. Trong bài đăng này, chúng tôi sẽ chỉ ra cách các ví dụ đối nghịch hoạt động trên các phương tiện khác nhau và sẽ thảo luận về lý do tại sao việc bảo vệ hệ thống chống lại chúng có thể khó khăn.
Tại OpenAI, chúng tôi cho rằng các ví dụ đối nghịch là một khía cạnh tốt của bảo mật cần giải quyết vì chúng đại diện cho một vấn đề cụ thể về an toàn AI có thể được giải quyết trong thời gian ngắn và vì việc khắc phục chúng đủ khó khăn để đòi hỏi nỗ lực nghiên cứu nghiêm túc. (Mặc dù chúng tôi sẽ cần khám phá nhiều khía cạnh của bảo mật máy học để đạt được mục tiêu xây dựng AI an toàn, phân phối rộng rãi).
Để có ý tưởng về những ví dụ đối nghịch trông như thế nào, hãy xem xét phần trình bày này từ Giải thích và khai thác các ví dụ đối nghịch: bắt đầu bằng hình ảnh một con gấu trúc, kẻ tấn công thêm một nhiễu loạn nhỏ đã được tính toán để khiến hình ảnh được nhận dạng là một con vượn với độ tin cậy cao.
- Tài khoản ChatGPT 4 với vô vàn ưu đã!
Ví dụ đối kháng có khả năng gây nguy hiểm. Ví dụ, kẻ tấn công có thể nhắm mục tiêu vào xe tự hành bằng cách sử dụng nhãn dán hoặc sơn để tạo ra biển báo dừng đối kháng mà xe sẽ hiểu là biển báo 'nhường đường' hoặc biển báo khác, như đã thảo luận trong Các cuộc tấn công hộp đen thực tế chống lại hệ thống học sâu bằng ví dụ đối kháng.
Theo nghiên cứu mới từ UC Berkeley, OpenAI và Đại học bang Pennsylvania, các tác nhân học tăng cường cũng có thể bị thao túng bởi các ví dụ đối nghịch, Các cuộc tấn công đối nghịch vào chính sách mạng nơ-ron và nghiên cứu từ Đại học Nevada tại Reno, Lỗ hổng của Học tăng cường sâu đối với các cuộc tấn công quy nạp chính sách. Nghiên cứu cho thấy các thuật toán RL được sử dụng rộng rãi, chẳng hạn như DQN, TRPO và A3C, dễ bị ảnh hưởng bởi các đầu vào đối nghịch. Những điều này có thể dẫn đến hiệu suất bị suy giảm ngay cả khi có sự nhiễu loạn quá tinh vi mà con người không thể nhận ra, khiến một tác nhân di chuyển một mái chèo pong xuống khi nó phải di chuyển lên hoặc can thiệp vào khả năng phát hiện kẻ thù của nó trong Seaquest.
.png)
Các ví dụ đối nghịch cung cấp cho chúng ta một số lực kéo về an toàn AI
Khi chúng ta nghĩ về nghiên cứu về an toàn AI, chúng ta thường nghĩ về một số vấn đề khó khăn nhất trong lĩnh vực đó — làm thế nào chúng ta có thể đảm bảo rằng các tác nhân học tăng cường tinh vi thông minh hơn đáng kể so với con người sẽ hành động theo cách mà nhà thiết kế của chúng mong muốn?
Các ví dụ đối nghịch cho chúng ta thấy rằng ngay cả các thuật toán hiện đại đơn giản, cho cả học có giám sát và học tăng cường, cũng có thể hoạt động theo những cách đáng ngạc nhiên mà chúng ta không mong muốn.
Các nỗ lực phòng thủ chống lại các ví dụ đối nghịch
Các kỹ thuật truyền thống để làm cho các mô hình học máy mạnh mẽ hơn, chẳng hạn như giảm trọng số và bỏ học, thường không cung cấp biện pháp phòng thủ thực tế chống lại các ví dụ đối nghịch. Cho đến nay, chỉ có hai phương pháp cung cấp biện pháp phòng thủ đáng kể.
Đào tạo đối nghịch : Đây là giải pháp vũ phu trong đó chúng ta chỉ cần tạo ra nhiều ví dụ đối nghịch và đào tạo rõ ràng mô hình để không bị đánh lừa bởi từng ví dụ. Một triển khai mã nguồn mở của đào tạo đối nghịch có sẵn trong cleverhans thư viện và cách sử dụng của nó được minh họa trong hướng dẫn sau đây.
Chưng cất phòng thủ: Đây là một chiến lược mà chúng ta đào tạo mô hình để đưa ra xác suất của các lớp khác nhau, thay vì đưa ra quyết định khó khăn về việc đưa ra lớp nào. Xác suất được cung cấp bởi một mô hình trước đó, được đào tạo trên cùng một tác vụ bằng cách sử dụng các nhãn lớp cứng. Điều này tạo ra một mô hình có bề mặt được làm mịn theo các hướng mà kẻ thù thường cố gắng khai thác, khiến chúng khó phát hiện ra các điều chỉnh đầu vào đối nghịch dẫn đến phân loại không chính xác. (Chưng cất ban đầu được giới thiệu trong Chưng cất kiến thức trong mạng nơ-ron là một kỹ thuật nén mô hình, trong đó một mô hình nhỏ được đào tạo để bắt chước một mô hình lớn, nhằm tiết kiệm chi phí tính toán).
Tuy nhiên, ngay cả những thuật toán chuyên biệt này cũng có thể dễ dàng bị phá vỡ bằng cách cung cấp thêm sức mạnh tính toán cho kẻ tấn công.
Một biện pháp phòng thủ thất bại: “che phủ gradient”
Để đưa ra ví dụ về cách phòng thủ đơn giản có thể thất bại, chúng ta hãy xem xét tại sao một kỹ thuật có tên là "che chắn gradient" lại không hiệu quả.
“Mặt nạ gradient” là một thuật ngữ được giới thiệu trong Practical Black-Box Attacks against Deep Learning Systems using Adversarial Examples. để mô tả toàn bộ danh mục các phương pháp phòng thủ thất bại hoạt động bằng cách cố gắng từ chối kẻ tấn công truy cập vào một gradient hữu ích.
Hầu hết các kỹ thuật xây dựng ví dụ đối nghịch đều sử dụng gradient của mô hình để thực hiện một cuộc tấn công. Nói cách khác, họ nhìn vào một bức ảnh máy bay, họ kiểm tra hướng nào trong không gian hình ảnh khiến xác suất của lớp "mèo" tăng lên, và sau đó họ đẩy nhẹ (nói cách khác, họ làm nhiễu đầu vào) theo hướng đó. Hình ảnh mới, đã sửa đổi bị nhận dạng nhầm là một con mèo.
Nhưng nếu không có gradient thì sao — nếu một sửa đổi vô cùng nhỏ đối với hình ảnh không gây ra thay đổi nào trong đầu ra của mô hình thì sao? Điều này có vẻ cung cấp một số biện pháp phòng thủ vì kẻ tấn công không biết phải "đẩy" hình ảnh theo cách nào.
Chúng ta có thể dễ dàng hình dung ra một số cách rất đơn giản để loại bỏ gradient. Ví dụ, hầu hết các mô hình phân loại hình ảnh có thể chạy ở hai chế độ: một chế độ chỉ đưa ra danh tính của lớp có khả năng xảy ra cao nhất và một chế độ đưa ra xác suất. Nếu đầu ra của mô hình là "99,9% máy bay, 0,1% mèo", thì một thay đổi nhỏ đối với đầu vào sẽ tạo ra một thay đổi nhỏ đối với đầu ra và gradient cho chúng ta biết những thay đổi nào sẽ làm tăng xác suất của lớp "mèo". Nếu chúng ta chạy mô hình ở chế độ chỉ đưa ra "máy bay", thì một thay đổi nhỏ đối với đầu vào sẽ không làm thay đổi đầu ra chút nào và gradient không cho chúng ta biết bất cứ điều gì.
Hãy chạy một thí nghiệm tư duy để xem chúng ta có thể bảo vệ mô hình của mình tốt như thế nào trước các ví dụ đối nghịch bằng cách chạy nó ở chế độ "lớp có khả năng xảy ra nhất" thay vì "chế độ xác suất". Kẻ tấn công không còn biết phải đi đâu để tìm các đầu vào sẽ được phân loại là mèo, vì vậy chúng ta có thể có một số biện pháp phòng thủ. Thật không may, mọi hình ảnh được phân loại là mèo trước đây vẫn được phân loại là mèo bây giờ. Nếu kẻ tấn công có thể đoán được những điểm nào là ví dụ đối nghịch, thì những điểm đó vẫn sẽ bị phân loại sai. Chúng ta không làm cho mô hình mạnh mẽ hơn; chúng ta chỉ cung cấp cho kẻ tấn công ít manh mối hơn để tìm ra lỗ hổng trong biện pháp phòng thủ của mô hình.
Thậm chí còn không may hơn, hóa ra kẻ tấn công có một chiến lược rất tốt để đoán lỗ hổng trong phòng thủ. Kẻ tấn công có thể đào tạo mô hình của riêng họ, một mô hình trơn tru có độ dốc, tạo các ví dụ đối nghịch cho mô hình của họ, rồi triển khai các ví dụ đối nghịch đó chống lại mô hình không trơn tru của chúng tôi. Rất thường xuyên, mô hình của chúng tôi cũng sẽ phân loại sai các ví dụ này. Cuối cùng, thí nghiệm tư duy của chúng tôi cho thấy rằng việc ẩn độ dốc không đưa chúng tôi đến đâu cả.
Các chiến lược phòng thủ thực hiện che phủ gradient thường tạo ra một mô hình rất mượt mà theo các hướng cụ thể và các vùng lân cận của các điểm đào tạo, khiến cho đối thủ khó tìm ra các gradient chỉ ra các hướng ứng viên tốt để làm nhiễu đầu vào theo cách gây hại cho mô hình. Tuy nhiên, đối thủ có thể đào tạo một mô hình thay thế : một bản sao bắt chước mô hình được bảo vệ bằng cách quan sát các nhãn mà mô hình được bảo vệ gán cho các đầu vào được đối thủ lựa chọn cẩn thận.
.png)
Một thủ tục để thực hiện một cuộc tấn công trích xuất mô hình như vậy đã được giới thiệu trong bài báo về các cuộc tấn công hộp đen. Sau đó, kẻ thù có thể sử dụng các gradient của mô hình thay thế để tìm các ví dụ đối nghịch cũng bị phân loại sai bởi mô hình được bảo vệ. Trong hình trên, được tái tạo từ cuộc thảo luận về che giấu gradient được tìm thấy trong Towards the Science of Security and Privacy in Machine Learning, chúng tôi minh họa chiến lược tấn công này bằng một bài toán ML một chiều. Hiện tượng che phủ gradient sẽ trầm trọng hơn đối với các bài toán có nhiều chiều hơn, nhưng khó mô tả hơn.
Chúng tôi thấy rằng cả huấn luyện đối nghịch và chưng cất phòng thủ đều vô tình thực hiện một loại che phủ gradient. Không thuật toán nào được thiết kế rõ ràng để thực hiện che phủ gradient, nhưng che phủ gradient rõ ràng là một biện pháp phòng thủ mà các thuật toán học máy có thể phát minh ra tương đối dễ dàng khi chúng được huấn luyện để tự vệ và không được hướng dẫn cụ thể về cách thực hiện. Nếu chúng ta chuyển các ví dụ đối nghịch từ một mô hình sang mô hình thứ hai được huấn luyện bằng huấn luyện đối nghịch hoặc chưng cất phòng thủ, thì cuộc tấn công thường thành công, ngay cả khi một cuộc tấn công trực tiếp vào mô hình thứ hai sẽ thất bại. Điều này cho thấy rằng cả hai kỹ thuật huấn luyện đều làm nhiều hơn để làm phẳng mô hình và loại bỏ gradient hơn là đảm bảo nó phân loại đúng nhiều điểm hơn.
Tại sao lại khó để bảo vệ trước những ví dụ đối nghịch?
Các ví dụ đối nghịch khó có thể bảo vệ vì khó xây dựng một mô hình lý thuyết về quá trình tạo ví dụ đối nghịch. Các ví dụ đối nghịch là các giải pháp cho một bài toán tối ưu hóa phi tuyến tính và phi lồi đối với nhiều mô hình ML, bao gồm cả mạng nơ-ron. Vì chúng ta không có các công cụ lý thuyết tốt để mô tả các giải pháp cho các bài toán tối ưu hóa phức tạp này, nên rất khó để đưa ra bất kỳ loại lập luận lý thuyết nào cho rằng một biện hộ sẽ loại trừ một tập hợp các ví dụ đối nghịch.
- Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ!
Các ví dụ đối nghịch cũng khó để chống lại vì chúng đòi hỏi các mô hình học máy phải tạo ra kết quả đầu ra tốt cho mọi đầu vào có thể . Hầu hết thời gian, các mô hình học máy hoạt động rất tốt nhưng chỉ hoạt động trên một lượng rất nhỏ trong số tất cả các đầu vào có thể mà chúng có thể gặp phải.
Mọi chiến lược chúng tôi đã thử nghiệm cho đến nay đều thất bại vì chúng không thích ứng : chúng có thể chặn một loại tấn công, nhưng lại để lại một lỗ hổng khác cho kẻ tấn công biết về biện pháp phòng thủ đang được sử dụng. Thiết kế một biện pháp phòng thủ có thể bảo vệ chống lại kẻ tấn công mạnh mẽ, thích ứng là một lĩnh vực nghiên cứu quan trọng.
Phần kết luận
Các ví dụ đối nghịch cho thấy nhiều thuật toán học máy hiện đại có thể bị phá vỡ theo những cách đáng ngạc nhiên. Những thất bại này của học máy chứng minh rằng ngay cả các thuật toán đơn giản cũng có thể hoạt động rất khác so với những gì các nhà thiết kế của chúng dự định. Chúng tôi khuyến khích các nhà nghiên cứu học máy tham gia và thiết kế các phương pháp để ngăn chặn các ví dụ đối nghịch, nhằm thu hẹp khoảng cách giữa những gì các nhà thiết kế dự định và cách các thuật toán hoạt động.

Cách đổi Mật khẩu Chat GPT - Hướng dẫn đổi Pass Chat GPT 100% Thành công
Hướng dẫn Cách đăng nhập Chat GPT Nhanh nhất | Có hỗ trợ Miễn phí qua Teamview-Ultraview
Chat GPT Plus là gì? So sánh Chat GPT Plus với Chat GPT Miễn phí
Chat GPT bị giới hạn giải thích vì sao và cách khắc phục
Chat GPT là gì ? Cách đăng Ký Chat GPT Miễn Phí tại Việt Nam