zalo
Chat ngay

Rủi ro biên giới và sự chuẩn bị

Để hỗ trợ sự an toàn của các hệ thống AI có năng lực cao, chúng tôi đang phát triển phương pháp tiếp cận để phòng ngừa rủi ro thảm khốc, bao gồm xây dựng một nhóm phòng ngừa và đưa ra thử thách

Là một phần trong sứ mệnh xây dựng AGI an toàn, chúng tôi nghiêm túc xem xét toàn bộ các rủi ro an toàn liên quan đến AI, từ các hệ thống chúng ta có ngày nay cho đến những phạm vi xa nhất của siêu trí tuệ . Vào tháng 7, chúng tôi đã tham gia cùng các phòng thí nghiệm AI hàng đầu khác để đưa ra một loạt các cam kết tự nguyện nhằm thúc đẩy sự an toàn, bảo mật và lòng tin vào AI. Những cam kết này bao gồm một loạt các lĩnh vực rủi ro, tập trung vào các rủi ro biên giới là trọng tâm của Hội nghị thượng đỉnh về an toàn AI của Vương quốc Anh. Là một phần trong những đóng góp của chúng tôi cho Hội nghị thượng đỉnh, chúng tôi đã trình bày chi tiết tiến độ thực hiện an toàn AI tiên tiến, bao gồm công việc trong phạm vi các cam kết tự nguyện của chúng tôi.

Cách tiếp cận của chúng tôi để chuẩn bị

Chúng tôi tin rằng các mô hình AI tiên tiến, vượt trội hơn khả năng hiện có trong các mô hình tiên tiến nhất hiện có, có tiềm năng mang lại lợi ích cho toàn thể nhân loại. Nhưng chúng cũng đặt ra những rủi ro ngày càng nghiêm trọng. Việc quản lý các rủi ro thảm khốc từ AI tiên tiến sẽ đòi hỏi phải trả lời các câu hỏi như:

Đọc thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ với nhiều ưu đãi hấp dẫn!

+ Hệ thống AI tiên tiến nguy hiểm như thế nào khi bị sử dụng sai mục đích, cả hiện tại và tương lai? 

+ Làm thế nào chúng ta có thể xây dựng một khuôn khổ vững chắc để giám sát, đánh giá, dự đoán và bảo vệ chống lại các khả năng nguy hiểm của các hệ thống AI tiên tiến?

+ Nếu trọng số mô hình AI tiên tiến của chúng tôi bị đánh cắp, những kẻ xấu có thể chọn cách lợi dụng chúng như thế nào?

Chúng ta cần đảm bảo rằng mình có sự hiểu biết và cơ sở hạ tầng cần thiết để đảm bảo an toàn cho các hệ thống AI có năng lực cao.

Đội Chuẩn bị mới của chúng tôi

Để giảm thiểu những rủi ro này khi các mô hình AI tiếp tục được cải thiện, chúng tôi đang xây dựng một nhóm mới có tên là Preparedness. Do Aleksander Madry dẫn đầu, nhóm Preparedness sẽ kết nối chặt chẽ việc đánh giá năng lực, đánh giá và nhóm đỏ nội bộ cho các mô hình biên giới, từ các mô hình chúng tôi phát triển trong tương lai gần đến các mô hình có khả năng cấp độ AGI. Nhóm sẽ giúp theo dõi, đánh giá, dự báo và bảo vệ chống lại các rủi ro thảm khốc trải dài trên nhiều danh mục bao gồm:

+ Sự thuyết phục cá nhân

+ An ninh mạng

+ Các mối đe dọa về hóa học, sinh học, phóng xạ và hạt nhân (CBRN)

+ Sao chép và thích nghi tự chủ (ARA)

Nhiệm vụ của nhóm Chuẩn bị cũng bao gồm việc phát triển và duy trì Chính sách Phát triển có tính đến Rủi ro (RDP). RDP của chúng tôi sẽ trình bày chi tiết cách tiếp cận của chúng tôi để phát triển các đánh giá và giám sát năng lực mô hình biên giới nghiêm ngặt, tạo ra một loạt các hành động bảo vệ và thiết lập một cấu trúc quản trị để chịu trách nhiệm và giám sát trong suốt quá trình phát triển đó. RDP có mục đích bổ sung và mở rộng công tác giảm thiểu rủi ro hiện tại của chúng tôi, góp phần vào sự an toàn và sự liên kết của các hệ thống mới có năng lực cao, cả trước và sau khi triển khai.

Tham gia cùng chúng tôi

Bạn có hứng thú làm việc về Preparedness không? Chúng tôi đang tuyển dụng những tài năng đặc biệt từ nhiều nền tảng kỹ thuật khác nhau vào nhóm Preparedness để mở rộng ranh giới của các mô hình AI tiên tiến của chúng tôi.

Thách thức về sự chuẩn bị

Để xác định các lĩnh vực ít đáng lo ngại hơn (và xây dựng nhóm!), chúng tôi cũng đang triển khai Thử thách Sẵn sàng AI của mình để ngăn ngừa việc sử dụng sai mục đích thảm khốc. Chúng tôi sẽ cung cấp 25.000 đô la tín dụng API cho tối đa 10 bài dự thi hàng đầu, công bố các ý tưởng và bài dự thi mới lạ, đồng thời tìm kiếm các ứng viên cho hạng mục Sẵn sàng trong số những ứng viên hàng đầu trong thử thách này. 

Người chiến thắng thử thách chuẩn bị

Là một phần trong luồng công việc 'những điều chưa biết' của chúng tôi từ Khung chuẩn bị, Đội Chuẩn bị đã trao tặng 25.000 đô la tín dụng API cho mười bài dự thi xuất sắc nhất cho Thử thách Chuẩn bị. Những bài dự thi này nhằm mục đích xác định các lĩnh vực rủi ro độc đáo nhưng vẫn hợp lý đối với AI tiên tiến. Chúng tôi đã nhận được hàng trăm bài dự thi bằng nửa tá ngôn ngữ và rất vui mừng được công bố mười người chiến thắng của chúng tôi dưới đây. Bài tập này đã giúp chúng tôi phát hiện ra các loại rủi ro mới, để chúng tôi có thể cải thiện chiến lược thử nghiệm và giảm thiểu phòng ngừa của mình.

Chúng tôi đã xem xét và chấm điểm từng bài nộp bằng cách đánh giá tính nghiêm ngặt về mặt kỹ thuật, tính độc đáo, quy mô thiệt hại tiềm ẩn và tính rõ ràng. Mười bài nộp hàng đầu, một số trong số đó được liệt kê bên dưới, kết hợp các ý tưởng chu đáo với bằng chứng về khái niệm và nêu bật những lợi thế của cách tiếp cận của họ so với cách tiếp cận không sử dụng các công cụ liên quan đến AI 1 .

+ Gây ra cuộc khủng hoảng tài chính ở một quốc gia có tầm quan trọng chiến lược - Claudia Biancotti 

+ Xác định thông tin riêng tư được thảo luận hoặc công bố trong bối cảnh công cộng - Chris Cundy 

+ Tăng khả năng đảo ngược kỹ thuật thông tin được phân loại hoặc nhạy cảm - George Davis 

+ Cản trở khả năng tiếp cận dịch vụ chăm sóc y tế của cá nhân - Mato Gudelj

+ Xác định mục tiêu tống tiền và lừa đảo - Connor Heaton 

+ Gây ra tai nạn máy bay bằng cách truy cập tần số vô tuyến và phá vỡ đường bay - Joel Hypolite 

+ Chạy các cuộc tấn công tiêm nhanh để gây ra phản ứng nguy hiểm - Daniel Julh

+ Vận hành và mở rộng các cuộc tấn công mạng phá hủy máy tính của nạn nhân và yêu cầu thanh toán để khôi phục chức năng - Jun Kokatsu

+ Can thiệp vào liều lượng thuốc của bệnh nhân - Zhenzhen Zhang 

Trong khi chấm điểm thử thách, chúng tôi nhận thấy những điểm tương đồng trong các chủ đề mà người tham gia xác định là mối đe dọa chính. Khoảng 70% người tham gia nhấn mạnh tiềm năng của các mô hình OpenAI trong việc tăng cường khả năng thuyết phục của tác nhân độc hại. Những người tham gia này đã trình bày chi tiết các mô hình đe dọa bao gồm sự cực đoan trực tuyến, phân cực và ảnh hưởng chính trị. Hiện chúng tôi đang tiến hành nghiên cứu về tác động của AI đối với khả năng thuyết phục và mong muốn sớm chia sẻ thêm thông tin với cộng đồng. Cảm ơn tất cả mọi người đã tham gia thử thách - có rất nhiều bài dự thi xuất sắc.

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !