Cập nhật an toàn OpenAI

Chia sẻ các hoạt động của chúng tôi trong khuôn khổ Hội nghị thượng đỉnh AI Seoul

Chúng tôi tự hào xây dựng và cho ra mắt những mẫu xe dẫn đầu ngành về cả khả năng và độ an toàn.

Hơn một trăm triệu người dùng và hàng triệu nhà phát triển dựa vào công việc của các nhóm an toàn của chúng tôi. Chúng tôi coi an toàn là thứ chúng tôi phải đầu tư và thành công trong nhiều mốc thời gian, từ việc sắp xếp các mô hình hiện tại đến các hệ thống có khả năng hơn nhiều mà chúng tôi mong đợi trong tương lai. Công việc này luôn diễn ra trên khắp OpenAI và khoản đầu tư của chúng tôi sẽ chỉ tăng theo thời gian.

Chúng tôi tin vào cách tiếp cận khoa học, cân bằng, trong đó các biện pháp an toàn được tích hợp vào quy trình phát triển ngay từ đầu. Điều này đảm bảo rằng các hệ thống AI của chúng tôi vừa sáng tạo vừa đáng tin cậy, và có thể mang lại lợi ích cho xã hội.

Tại Hội nghị thượng đỉnh AI Seoul hôm nay, chúng tôi sẽ tham gia cùng các nhà lãnh đạo ngành, quan chức chính phủ và các thành viên của xã hội dân sự để thảo luận về an toàn AI. Mặc dù vẫn còn nhiều việc phải làm, chúng tôi rất vui mừng trước các Cam kết an toàn AI tiên tiến bổ sung mà OpenAI và các công ty khác đã thống nhất ngày hôm nay. Các Cam kết kêu gọi các công ty phát triển và triển khai an toàn các mô hình AI tiên tiến của họ trong khi chia sẻ thông tin về các biện pháp giảm thiểu rủi ro của họ, phù hợp với các bước mà chúng tôi đã thực hiện. Những cam kết này bao gồm cam kết công bố các khuôn khổ an toàn như Khuôn khổ chuẩn bị chúng tôi đã phát triển và áp dụng vào năm ngoái.

Chúng tôi chia sẻ 10 phương pháp mà chúng tôi đang tích cực áp dụng và cải thiện.

+ Phân nhóm đỏ và thử nghiệm mô hình thực nghiệm trước khi phát hành: Chúng tôi đánh giá thực nghiệm tính an toàn của mô hình trước khi phát hành, cả bên trong và bên ngoài, theo Khung chuẩn bị và các cam kết tự nguyện của chúng tôi. Chúng tôi sẽ không phát hành mô hình mới nếu nó vượt qua ngưỡng rủi ro "Trung bình" theo Khung chuẩn bị của chúng tôi, cho đến khi chúng tôi triển khai đủ các biện pháp can thiệp an toàn để đưa điểm sau giảm thiểu trở lại "Trung bình". Hơn 70 chuyên gia bên ngoài đã giúp đánh giá các rủi ro liên quan đến GPT-4o thông qua các nỗ lực phân nhóm đỏ bên ngoài của chúng tôi và chúng tôi đã sử dụng những bài học kinh nghiệm này để xây dựng các đánh giá dựa trên các điểm yếu trong các điểm kiểm tra trước đó nhằm hiểu rõ hơn các điểm kiểm tra sau đó.

+ Nghiên cứu về sự liên kết và an toàn: Các mô hình của chúng tôi đã trở nên an toàn hơn đáng kể theo thời gian. Điều này có thể là do xây dựng các mô hình thông minh hơn, thường ít mắc lỗi thực tế hơn và ít có khả năng tạo ra nội dung có hại ngay cả trong các điều kiện bất lợi như bẻ khóa. Điều này cũng là do chúng tôi tập trung đầu tư vào sự liên kết thực tế, hệ thống an toàn và nghiên cứu sau đào tạo. Những nỗ lực này nhằm cải thiện chất lượng dữ liệu tinh chỉnh do con người tạo ra và trong tương lai, các hướng dẫn mà các mô hình của chúng tôi được đào tạo để tuân theo . Chúng tôi cũng đang tiến hành và công bố nghiên cứu cơ bản nhằm cải thiện đáng kể tính mạnh mẽ của hệ thống trước các cuộc tấn công như bẻ khóa.

+ Giám sát để phát hiện hành vi lạm dụng: Khi chúng tôi triển khai các mô hình ngôn ngữ ngày càng có khả năng hơn thông qua API và ChatGPT, chúng tôi đã tận dụng nhiều công cụ, bao gồm cả kiểm duyệt chuyên dụng các mô hình và việc sử dụng các mô hình của riêng chúng tôi để giám sát rủi ro an toàn và lạm dụng. Chúng tôi đã chia sẻ một số phát hiện quan trọng trong quá trình này, bao gồm một tiết lộ chung (với Microsoft) về việc các tác nhân nhà nước lạm dụng công nghệ của chúng tôi , để những người khác có thể bảo vệ tốt hơn trước những rủi ro tương tự. Chúng tôi cũng sử dụng tài khoản ChatGPT-4 để phát triển chính sách nội dung và các quyết định kiểm duyệt nội dung , cho phép vòng phản hồi nhanh hơn để tinh chỉnh chính sách và ít tài liệu lạm dụng hơn được tiếp xúc với người kiểm duyệt.

+ Phương pháp tiếp cận có hệ thống cho sự an toàn : Chúng tôi triển khai một loạt các biện pháp an toàn ở mọi giai đoạn của vòng đời mô hình, từ giai đoạn tiền đào tạo đến triển khai. Khi chúng tôi tiến triển trong việc phát triển hành vi mô hình an toàn hơn và phù hợp hơn, chúng tôi cũng đầu tư vào an toàn dữ liệu tiền đào tạo, điều khiển hành vi mô hình cấp hệ thống, bánh đà dữ liệu để cải thiện an toàn liên tục và cơ sở hạ tầng giám sát mạnh mẽ.

+ Bảo vệ trẻ em: Trọng tâm quan trọng trong công tác an toàn của chúng tôi là bảo vệ trẻ em. Chúng tôi đã xây dựng các rào cản mặc định và biện pháp an toàn mạnh mẽ vào ChatGPT và DALL·-E để giảm thiểu các tác hại tiềm ẩn đối với trẻ em. Vào năm 2023, chúng tôi đã hợp tác với Thorn's Safer để phát hiện, xem xét và báo cáo Tài liệu lạm dụng tình dục trẻ em cho Trung tâm quốc gia về trẻ em mất tích và bị bóc lột nếu người dùng cố gắng tải lên các công cụ hình ảnh của chúng tôi. Chúng tôi tiếp tục hợp tác với Thorn, Liên minh công nghệ, All Tech is Human, Commonsense Media và cộng đồng công nghệ rộng lớn hơn để duy trì các nguyên tắc An toàn theo Thiết kế.

+ Tính toàn vẹn của cuộc bầu cử : Chúng tôi đang hợp tác với các chính phủ và bên liên quan để ngăn chặn tình trạng lạm dụng, đảm bảo tính minh bạch của nội dung do AI tạo ra và cải thiện quyền truy cập vào thông tin bỏ phiếu chính xác . Để đạt được điều này, chúng tôi đã giới thiệu một công cụ để xác định hình ảnh do DALL·E 3 tạo ra, tham gia vào ủy ban chỉ đạo của Sáng kiến xác thực nội dung (C2PA) và kết hợp siêu dữ liệu C2PA vào DALL·E 3 để giúp mọi người hiểu nguồn phương tiện truyền thông mà họ tìm thấy trực tuyến. ChatGPT hiện hướng người dùng đến các nguồn thông tin bỏ phiếu chính thức tại Hoa Kỳ và Châu Âu. Ngoài ra, chúng tôi ủng hộ "Đạo luật bảo vệ bầu cử khỏi AI lừa đảo" lưỡng đảng(mở trong cửa sổ mới)được đề xuất tại Thượng viện Hoa Kỳ, trong đó sẽ cấm nội dung gây hiểu lầm do AI tạo ra trong quảng cáo chính trị.

+ Đầu tư vào đánh giá tác động và phân tích chính sách: Những nỗ lực đánh giá tác động của chúng tôi đã có ảnh hưởng rộng rãi đến nghiên cứu, chuẩn mực của ngành và chính sách, bao gồm cả công trình ban đầu của chúng tôi về việc đo lường các rủi ro về hóa học, sinh học, phóng xạ và hạt nhân (CBRN) liên quan đến các hệ thống AI và nghiên cứu của chúng tôi ước tính mức độ mà các ngành nghề và công nghiệp khác nhau có thể bị tác động bởi các mô hình ngôn ngữ . Chúng tôi cũng công bố công trình tiên phong về cách xã hội có thể quản lý tốt nhất các rủi ro liên quan - ví dụ, bằng cách làm việc với các chuyên gia bên ngoài để đánh giá các tác động của các mô hình ngôn ngữ đối với các hoạt động gây ảnh hưởng.

+ Các biện pháp kiểm soát truy cập và bảo mật: Chúng tôi ưu tiên bảo vệ khách hàng, sở hữu trí tuệ và dữ liệu của mình. Chúng tôi triển khai các mô hình AI của mình ra thế giới dưới dạng dịch vụ, kiểm soát quyền truy cập thông qua API cho phép thực thi chính sách . Các nỗ lực bảo mật mạng của chúng tôi bao gồm hạn chế quyền truy cập vào môi trường đào tạo và các bí mật thuật toán có giá trị cao trên cơ sở cần biết, thử nghiệm thâm nhập bên trong và bên ngoài, chương trình tiền thưởng cho lỗi , v.v. Chúng tôi tin rằng việc bảo vệ các hệ thống AI tiên tiến sẽ được hưởng lợi từ sự phát triển của bảo mật cơ sở hạ tầng và đang khám phá các biện pháp kiểm soát mới như điện toán bảo mật cho GPU và các ứng dụng AI vào phòng thủ mạng để bảo vệ công nghệ của chúng tôi. Để trao quyền cho phòng thủ mạng, chúng tôi đang tài trợ cho các nhà nghiên cứu bảo mật bên thứ ba thông qua Chương trình tài trợ an ninh mạng của chúng tôi .

+ Hợp tác với chính phủ: Chúng tôi hợp tác với các chính phủ trên toàn thế giới để thông báo về việc phát triển các chính sách an toàn AI hiệu quả và có thể thích ứng. Điều này bao gồm việc thể hiện công việc của chúng tôi và chia sẻ những bài học kinh nghiệm , hợp tác để thí điểm chính phủ và các bên thứ ba khác đảm bảo, và thông báo cho cuộc tranh luận công khai về các tiêu chuẩn và luật mới.

+ Quyết định về an toàn và giám sát của Hội đồng quản trị: Là một phần của Khung chuẩn bị của chúng tôi, chúng tôi có một cấu trúc hoạt động để đưa ra quyết định về an toàn. Nhóm cố vấn an toàn liên chức năng của chúng tôi xem xét các báo cáo năng lực mô hình và đưa ra các khuyến nghị trước khi triển khai. Lãnh đạo công ty đưa ra quyết định cuối cùng, với Hội đồng quản trị thực hiện giám sát các quyết định đó.

Cách tiếp cận này cho phép chúng tôi xây dựng và triển khai các mô hình an toàn và có năng lực ở mức độ hiện tại.

Khi chúng tôi tiến tới mô hình biên giới tiếp theo, chúng tôi nhận ra rằng chúng tôi sẽ cần phải phát triển các hoạt động của mình, đặc biệt là để tăng cường thế trận an ninh của chúng tôi để cuối cùng có khả năng chống chịu với các cuộc tấn công tinh vi của các tác nhân nhà nước và để đảm bảo rằng chúng tôi dành thêm thời gian để thử nghiệm an toàn trước khi ra mắt chính thức. Chúng tôi và lĩnh vực này có một vấn đề khó khăn cần giải quyết để cung cấp AI ngày càng có khả năng một cách an toàn và có lợi. Chúng tôi có kế hoạch chia sẻ thêm về các hoạt động đang phát triển này trong những tuần tới.

Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ với nhiều ưu đãi hấp dẫn!