Hệ thống phân cấp hướng dẫn: Đào tạo LLM để ưu tiên các hướng dẫn đặc quyền

Tóm tắt

Các LLM ngày nay dễ bị tiêm lệnh nhắc, bẻ khóa và các cuộc tấn công khác cho phép kẻ thù ghi đè các lệnh gốc của mô hình bằng các lệnh nhắc độc hại của riêng chúng. Trong công trình này, chúng tôi lập luận rằng một trong những lỗ hổng chính nằm dưới các cuộc tấn công này là các LLM thường coi các lệnh nhắc của hệ thống (ví dụ: văn bản từ nhà phát triển ứng dụng) có cùng mức độ ưu tiên như văn bản từ người dùng không đáng tin cậy và bên thứ ba. Để giải quyết vấn đề này, chúng tôi đề xuất một hệ thống phân cấp lệnh xác định rõ ràng cách các mô hình nên hoạt động khi các lệnh có mức độ ưu tiên khác nhau xung đột. Sau đó, chúng tôi đề xuất một phương pháp tạo dữ liệu để chứng minh hành vi theo lệnh phân cấp này, phương pháp này dạy các LLM bỏ qua có chọn lọc các lệnh có đặc quyền thấp hơn. Chúng tôi áp dụng phương pháp này cho tài khoản ChatGPT-4, cho thấy rằng nó làm tăng đáng kể tính mạnh mẽ -- ngay cả đối với các loại tấn công không thấy trong quá trình đào tạo -- đồng thời áp dụng mức suy giảm tối thiểu đối với các khả năng tiêu chuẩn.

Xem thêm: mua tài khoản ChatGPT 4 chính hãng giá rẻ với nhiều ưu đãi hấp dẫn!

Họ tên (*)	Số điện thoại (*)
Email (*)	Dịch vụ

Hệ thống phân cấp hướng dẫn: Đào tạo LLM để ưu tiên các hướng dẫn đặc quyền

Tóm tắt

Bài liên quan

Trình Tạo Bài Hát Trên Cửa Hàng GPT: Công Cụ Mới Mẻ Cho…

Các mô hình tạo video như trình mô phỏng thế giới

60+ Lời nhắc ChatGPT cho các bài đăng hấp dẫn trên mạng xã…

Cải thiện lý luận toán học bằng cách giám sát quy trình

Liệu ChatGPT có thay thế được người viết nội dung không?

Đầu vào dân chủ cho AI

AI trong kinh doanh 2025: Vai trò của ChatGPT trong những đổi mới…

GPT là GPT: Một cái nhìn ban đầu về tiềm năng tác động…

Có gì mới trong ChatGPT vào năm 2025?

Cách đổi Mật khẩu Chat GPT - Hướng dẫn đổi Pass Chat GPT 100% Thành công

Hướng dẫn Cách đăng nhập Chat GPT Nhanh nhất | Có hỗ trợ Miễn phí qua Teamview-Ultraview

Chat GPT Plus là gì? So sánh Chat GPT Plus với Chat GPT Miễn phí

Chat GPT bị giới hạn giải thích vì sao và cách khắc phục

Chat GPT là gì ? Cách đăng Ký Chat GPT Miễn Phí tại Việt Nam

GPT là GPT: Một cái nhìn ban đầu về tiềm năng tác động của các mô hình ngôn ngữ lớn lên thị trường lao động

Có gì mới trong ChatGPT vào năm 2025?

GPT-4

ChatGPT đang thay đổi cách chúng ta viết?

Point-E: Một hệ thống tạo ra các đám mây điểm 3D từ các lời nhắc phức tạp

Chatgpt sẽ ảnh hưởng đến SEO như thế nào

Luật mở rộng cho mô hình phần thưởng tối ưu hóa quá mức

Trò chuyện GPT-4 - Tất cả những gì bạn cần biết về AI mạnh mẽ này

Giới thiệu Whisper

Chế độ nghiên cứu sâu ChatGPT là gì?

Đào tạo hiệu quả các mô hình ngôn ngữ để điền vào giữa

ChatGPT 2025: AI Thế Hệ Mới Sẵn Sàng Thay Đổi Ngành Viết Nội Dung

DALL·E 2 biện pháp giảm thiểu trước khi đào tạo

Cập nhật Big ChatGPT năm 2025: Cách mạng hóa tiếp thị kỹ thuật số với AI tiên tiến

Học chơi Minecraft với Video PreTraining

Phát triển ứng dụng ChatGPT có thể nâng cao nền tảng thương mại điện tử như thế nào vào năm 2025?

Chat GPT

Trí tuệ nhân tạo AI

Đăng ký tư vấn