0326 239 199
Chat ngay

Hệ thống phân cấp hướng dẫn: Đào tạo LLM để ưu tiên các hướng dẫn đặc quyền

Tóm tắt

Các LLM ngày nay dễ bị tiêm lệnh nhắc, bẻ khóa và các cuộc tấn công khác cho phép kẻ thù ghi đè các lệnh gốc của mô hình bằng các lệnh nhắc độc hại của riêng chúng. Trong công trình này, chúng tôi lập luận rằng một trong những lỗ hổng chính nằm dưới các cuộc tấn công này là các LLM thường coi các lệnh nhắc của hệ thống (ví dụ: văn bản từ nhà phát triển ứng dụng) có cùng mức độ ưu tiên như văn bản từ người dùng không đáng tin cậy và bên thứ ba. Để giải quyết vấn đề này, chúng tôi đề xuất một hệ thống phân cấp lệnh xác định rõ ràng cách các mô hình nên hoạt động khi các lệnh có mức độ ưu tiên khác nhau xung đột. Sau đó, chúng tôi đề xuất một phương pháp tạo dữ liệu để chứng minh hành vi theo lệnh phân cấp này, phương pháp này dạy các LLM bỏ qua có chọn lọc các lệnh có đặc quyền thấp hơn. Chúng tôi áp dụng phương pháp này cho tài khoản ChatGPT-4, cho thấy rằng nó làm tăng đáng kể tính mạnh mẽ -- ngay cả đối với các loại tấn công không thấy trong quá trình đào tạo -- đồng thời áp dụng mức suy giảm tối thiểu đối với các khả năng tiêu chuẩn.

Xem thêm: mua tài khoản ChatGPT 4 chính hãng giá rẻ với nhiều ưu đãi hấp dẫn! 

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !