Cách tiếp cận của chúng tôi đối với an toàn AI

OpenAI cam kết giữ cho AI mạnh mẽ an toàn và có lợi ích rộng rãi. Chúng tôi biết các công cụ AI của mình mang lại nhiều lợi ích cho mọi người ngày nay. Người dùng của chúng tôi trên toàn thế giới đã nói với chúng tôi rằng ChatGPT giúp tăng năng suất, nâng cao khả năng sáng tạo và cung cấp các trải nghiệm học tập được thiết kế riêng. Chúng tôi cũng nhận ra rằng, giống như bất kỳ công nghệ nào, các công cụ này đi kèm với những rủi ro thực sự—vì vậy chúng tôi nỗ lực để đảm bảo tính an toàn được tích hợp vào hệ thống của chúng tôi ở mọi cấp độ.

Xây dựng hệ thống AI ngày càng an toàn hơn

Trước khi phát hành bất kỳ hệ thống mới nào, chúng tôi tiến hành thử nghiệm nghiêm ngặt, thuê các chuyên gia bên ngoài để phản hồi, nỗ lực cải thiện hành vi của mô hình bằng các kỹ thuật như học tăng cường với phản hồi của con người và xây dựng các hệ thống giám sát và an toàn rộng rãi.

Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ với nhiều ưu đãi đặc biệt

Ví dụ, sau khi mô hình mới nhất của chúng tôi, GPT-4, hoàn tất quá trình đào tạo, chúng tôi đã dành hơn 6 tháng làm việc trên toàn tổ chức để đảm bảo mô hình an toàn hơn và thống nhất hơn trước khi phát hành công khai.

Chúng tôi tin rằng các hệ thống AI mạnh mẽ phải chịu sự đánh giá an toàn nghiêm ngặt. Cần có quy định để đảm bảo các hoạt động như vậy được áp dụng và chúng tôi tích cực hợp tác với các chính phủ để có được hình thức quy định tốt nhất có thể.

Học hỏi từ việc sử dụng thực tế để cải thiện biện pháp bảo vệ

Chúng tôi nỗ lực ngăn ngừa những rủi ro có thể lường trước trước khi triển khai, tuy nhiên, có một giới hạn đối với những gì chúng tôi có thể học được trong phòng thí nghiệm . Mặc dù đã nghiên cứu và thử nghiệm rộng rãi, chúng tôi không thể dự đoán tất cả những cách có lợi mà mọi người sẽ sử dụng công nghệ của chúng tôi , cũng như tất cả những cách mà mọi người sẽ lạm dụng nó. Đó là lý do tại sao chúng tôi tin rằng việc học hỏi từ việc sử dụng trong thế giới thực là một thành phần quan trọng để tạo ra và phát hành các hệ thống AI ngày càng an toàn hơn theo thời gian.

Chúng tôi thận trọng và dần dần phát hành các hệ thống AI mới - với các biện pháp bảo vệ đáng kể - cho một nhóm người ngày càng mở rộng và liên tục cải tiến dựa trên những bài học kinh nghiệm mà chúng tôi rút ra được.

Chúng tôi cung cấp các mô hình có khả năng nhất của mình thông qua các dịch vụ của riêng mình và thông qua API để các nhà phát triển có thể xây dựng công nghệ này trực tiếp vào ứng dụng của họ. Điều này cho phép chúng tôi theo dõi và thực hiện hành động đối với việc sử dụng sai mục đích, đồng thời liên tục xây dựng các biện pháp giảm thiểu để ứng phó với những cách thực tế mà mọi người sử dụng sai mục đích hệ thống của chúng tôi—không chỉ là các lý thuyết về việc sử dụng sai mục đích có thể trông như thế nào.

Việc sử dụng trong thế giới thực cũng khiến chúng ta phải phát triển các chính sách ngày càng tinh tế hơn để chống lại các hành vi gây ra rủi ro thực sự cho con người nhưng vẫn cho phép sử dụng công nghệ theo nhiều cách có lợi.

Quan trọng là chúng tôi tin rằng xã hội phải có thời gian để cập nhật và điều chỉnh theo AI ngày càng có năng lực hơn, và mọi người bị ảnh hưởng bởi công nghệ này đều phải có tiếng nói quan trọng trong cách AI phát triển hơn nữa. Việc triển khai lặp đi lặp lại đã giúp chúng tôi đưa nhiều bên liên quan vào cuộc thảo luận về việc áp dụng công nghệ AI hiệu quả hơn so với khi họ chưa có kinh nghiệm trực tiếp với các công cụ này.

Bảo vệ trẻ em

Một trọng tâm quan trọng trong nỗ lực bảo vệ trẻ em của chúng tôi là bảo vệ trẻ em. Chúng tôi yêu cầu mọi người phải từ 18 tuổi trở lên—hoặc 13 tuổi trở lên với sự chấp thuận của cha mẹ—để sử dụng các công cụ AI của chúng tôi và đang tìm kiếm các tùy chọn xác minh.

Chúng tôi không cho phép sử dụng công nghệ của mình để tạo ra nội dung thù địch, quấy rối, bạo lực hoặc dành cho người lớn, trong số các danh mục khác. Mô hình mới nhất của chúng tôi, tài khoản ChatGPT-4 có khả năng phản hồi các yêu cầu về nội dung không được phép ít hơn 82% so với GPT-3.5 và chúng tôi đã thiết lập một hệ thống mạnh mẽ để giám sát hành vi lạm dụng. GPT-4 hiện khả dụng cho những người đăng ký ChatGPT Plus và chúng tôi hy vọng sẽ cung cấp cho nhiều người hơn nữa theo thời gian.

Chúng tôi đã nỗ lực đáng kể để giảm thiểu khả năng các mô hình của chúng tôi tạo ra nội dung gây hại cho trẻ em. Ví dụ, khi người dùng cố gắng tải lên Tài liệu lạm dụng tình dục trẻ em đã biết vào công cụ hình ảnh của chúng tôi, chúng tôi sử dụng Thorn's Safer để phát hiện, xem xét và báo cáo cho Trung tâm quốc gia về trẻ em mất tích và bị bóc lột.

Ngoài các rào chắn an toàn mặc định của chúng tôi, chúng tôi làm việc với các nhà phát triển như Khan Academy phi lợi nhuận—đã xây dựng một trợ lý hỗ trợ AI có chức năng vừa là gia sư ảo cho học sinh vừa là trợ lý lớp học cho giáo viên—về các biện pháp giảm thiểu an toàn được thiết kế riêng cho trường hợp sử dụng của họ. Chúng tôi cũng đang nghiên cứu các tính năng cho phép các nhà phát triển đặt ra các tiêu chuẩn chặt chẽ hơn cho đầu ra của mô hình để hỗ trợ tốt hơn cho các nhà phát triển và người dùng muốn có chức năng như vậy.

Tôn trọng sự riêng tư

Các mô hình ngôn ngữ lớn của chúng tôi được đào tạo trên một khối lượng lớn văn bản bao gồm nội dung có sẵn công khai, nội dung được cấp phép và nội dung do người đánh giá tạo ra. Chúng tôi không sử dụng dữ liệu để bán dịch vụ, quảng cáo hoặc xây dựng hồ sơ của mọi người—chúng tôi sử dụng dữ liệu để làm cho các mô hình của mình hữu ích hơn cho mọi người. Ví dụ, ChatGPT cải thiện bằng cách đào tạo thêm về các cuộc trò chuyện mà mọi người có với nó.

Trong khi một số dữ liệu đào tạo của chúng tôi bao gồm thông tin cá nhân có sẵn trên internet công cộng, chúng tôi muốn các mô hình của mình tìm hiểu về thế giới, chứ không phải về các cá nhân riêng tư. Vì vậy, chúng tôi nỗ lực xóa thông tin cá nhân khỏi tập dữ liệu đào tạo khi có thể, tinh chỉnh các mô hình để từ chối các yêu cầu về thông tin cá nhân của các cá nhân riêng tư và phản hồi các yêu cầu từ các cá nhân về việc xóa thông tin cá nhân của họ khỏi hệ thống của chúng tôi. Các bước này giảm thiểu khả năng các mô hình của chúng tôi có thể tạo ra các phản hồi bao gồm thông tin cá nhân của các cá nhân riêng tư.

Cải thiện độ chính xác thực tế

Các mô hình ngôn ngữ lớn ngày nay dự đoán chuỗi từ tiếp theo dựa trên các mẫu mà chúng đã thấy trước đó, bao gồm cả văn bản đầu vào mà người dùng cung cấp. Trong một số trường hợp, các từ có khả năng xảy ra tiếp theo có thể không chính xác về mặt thực tế.

Cải thiện độ chính xác thực tế là trọng tâm quan trọng đối với OpenAI và nhiều nhà phát triển AI khác, và chúng tôi đang đạt được tiến triển. Bằng cách tận dụng phản hồi của người dùng về các đầu ra ChatGPT được đánh dấu là không chính xác như một nguồn dữ liệu chính, chúng tôi đã cải thiện độ chính xác thực tế của GPT-4. GPT-4 có khả năng cao hơn 40%(mở trong cửa sổ mới)để tạo ra nội dung thực tế hơn GPT-3.5.

Khi người dùng đăng ký sử dụng công cụ, chúng tôi cố gắng minh bạch nhất có thể rằng ChatGPT có thể không phải lúc nào cũng chính xác. Tuy nhiên, chúng tôi nhận ra rằng vẫn còn nhiều việc phải làm để giảm khả năng xảy ra ảo giác và giáo dục công chúng về những hạn chế hiện tại của các công cụ AI này.

Tiếp tục nghiên cứu và tham gia

Chúng tôi tin rằng cách tiếp cận thực tế để giải quyết các mối lo ngại về an toàn AI là dành nhiều thời gian và nguồn lực hơn để nghiên cứu các biện pháp giảm thiểu và kỹ thuật căn chỉnh hiệu quả, đồng thời thử nghiệm chúng trong điều kiện lạm dụng thực tế.

Quan trọng là chúng tôi cũng tin rằng việc cải thiện tính an toàn và khả năng của AI phải song hành với nhau. Công việc an toàn tốt nhất của chúng tôi cho đến nay đến từ việc làm việc với các mô hình có khả năng nhất của chúng tôi vì chúng tuân thủ hướng dẫn của người dùng tốt hơn và dễ điều khiển hoặc "hướng dẫn" hơn.

Chúng tôi sẽ ngày càng thận trọng hơn trong việc tạo ra và triển khai các mô hình có khả năng hơn và sẽ tiếp tục tăng cường các biện pháp phòng ngừa an toàn khi hệ thống AI của chúng tôi phát triển.

Trong khi chúng tôi đã chờ hơn 6 tháng để triển khai GPT-4 nhằm hiểu rõ hơn về khả năng, lợi ích và rủi ro của nó, đôi khi có thể cần phải mất nhiều thời gian hơn thế để cải thiện tính an toàn của các hệ thống AI. Do đó, các nhà hoạch định chính sách và nhà cung cấp AI sẽ cần đảm bảo rằng việc phát triển và triển khai AI được quản lý hiệu quả trên quy mô toàn cầu, để không ai cắt xén để tiến lên phía trước. Đây là một thách thức khó khăn đòi hỏi cả sự đổi mới về mặt kỹ thuật và thể chế, nhưng đó là thách thức mà chúng tôi mong muốn đóng góp.

Giải quyết các vấn đề an toàn cũng đòi hỏi phải có sự tranh luận, thử nghiệm và tham gia rộng rãi, bao gồm cả về ranh giới của hành vi hệ thống AI. Chúng tôi đã và sẽ tiếp tục thúc đẩy sự hợp tác và đối thoại cởi mở giữa các bên liên quan để tạo ra một hệ sinh thái AI an toàn.