zalo
Chat ngay

Bài học kinh nghiệm về an toàn và sử dụng sai mô hình ngôn ngữ

Chúng tôi mô tả suy nghĩ mới nhất của mình với hy vọng giúp các nhà phát triển AI khác giải quyết vấn đề an toàn và sử dụng sai mục đích các mô hình đã triển khai

Bản tóm tắt

Việc triển khai các hệ thống AI mạnh mẽ đã làm phong phú thêm hiểu biết của chúng ta về an toàn và lạm dụng nhiều hơn so với những gì có thể đạt được thông qua nghiên cứu đơn thuần. Đáng chú ý: Việc lạm dụng mô hình ngôn ngữ dựa trên API thường xuất hiện dưới nhiều hình thức khác nhau mà chúng ta lo sợ nhất; chúng tôi đã xác định được những hạn chế trong các đánh giá mô hình ngôn ngữ hiện có mà chúng tôi đang giải quyết bằng các chuẩn mực và bộ phân loại mới; và nghiên cứu an toàn cơ bản mang lại những lợi ích đáng kể cho tiện ích thương mại của các hệ thống AI.

Trong hai năm qua, chúng tôi đã học được rất nhiều về cách các mô hình ngôn ngữ có thể được sử dụng và lạm dụng như thế nào—những hiểu biết mà chúng tôi không thể có được nếu không có kinh nghiệm triển khai trong thế giới thực. Vào tháng 6 năm 2020, chúng tôi bắt đầu cấp quyền truy cập cho các nhà phát triển và nhà nghiên cứu vào  OpenAI API , một giao diện để truy cập và xây dựng các ứng dụng trên các mô hình AI mới do OpenAI phát triển. Việc triển khai GPT-3, Codex và các mô hình khác theo cách giảm thiểu rủi ro gây hại đã đặt ra nhiều thách thức về mặt kỹ thuật và chính sách.

Tổng quan về phương pháp triển khai mô hình của chúng tôi

Các mô hình ngôn ngữ lớn hiện có khả năng thực hiện  rất nhiều nhiệm vụ, thường nằm ngoài hộp. Hồ sơ rủi ro, ứng dụng tiềm năng và tác động rộng hơn của chúng đối với xã hội vẫn còn kém hiểu. Do đó, phương pháp triển khai của chúng tôi nhấn mạnh vào việc lặp lại liên tục và sử dụng các chiến lược sau đây nhằm tối đa hóa lợi ích của việc triển khai đồng thời giảm thiểu các rủi ro liên quan:

+ Phân tích rủi ro trước khi triển khai, tận dụng một bộ công cụ đánh giá an toàn và nhóm đỏ ngày càng mở rộng (ví dụ: chúng tôi đã kiểm tra InstructGPT của mình để tìm bất kỳ sự suy giảm an toàn nào bằng cách sử dụng các đánh giá  được thảo luận bên dưới )

+ Bắt đầu với một lượng người dùng nhỏ (ví dụ, cả GPT-3 và  loạt InstructGPT của chúng tôi  đều bắt đầu là bản beta riêng tư)

+ Nghiên cứu kết quả của các thí điểm sử dụng trường hợp mới (ví dụ: khám phá các điều kiện mà chúng ta có thể cho phép tạo nội dung dạng dài một cách an toàn, làm việc với một số lượng nhỏ khách hàng)

+ Triển khai các quy trình giúp theo dõi tình hình sử dụng (ví dụ: xem xét các trường hợp sử dụng, hạn ngạch mã thông báo và giới hạn tỷ lệ)

+ Tiến hành đánh giá hồi cứu chi tiết (ví dụ, các sự cố an toàn và triển khai lớn)

Không có giải pháp toàn diện nào cho việc triển khai có trách nhiệm, vì vậy chúng tôi cố gắng tìm hiểu và giải quyết các hạn chế của mô hình và các con đường tiềm ẩn để sử dụng sai mục đích ở mọi giai đoạn phát triển và triển khai. Cách tiếp cận này cho phép chúng tôi tìm hiểu càng nhiều càng tốt về các vấn đề an toàn và chính sách ở quy mô nhỏ và kết hợp những hiểu biết đó trước khi triển khai các đợt triển khai quy mô lớn hơn.

“Không có giải pháp tối ưu nào cho việc triển khai có trách nhiệm.”

Mặc dù không đầy đủ, một số lĩnh vực mà chúng tôi đã đầu tư cho đến nay bao gồm:

+ Dữ liệu trước khi đào tạo quản lý và lọc

+ Tinh chỉnh các mô hình để tuân thủ hướng dẫn tốt hơn

+ Phân tích rủi ro của các triển khai tiềm năng

+ Cung cấp tài liệu hướng dẫn sử dụng chi tiết

+ Công cụ xây dựng để sàng lọc các đầu ra mô hình có hại

+ Xem xét các trường hợp sử dụng theo chính sách của chúng tôi

+ Theo dõi các dấu hiệu sử dụng sai

+ Nghiên cứu tác động của các mô hình của chúng tôi

Vì mỗi giai đoạn can thiệp đều có những hạn chế nên cần có phương pháp tiếp cận toàn diện.

Có những lĩnh vực mà chúng tôi có thể làm nhiều hơn và vẫn còn chỗ để cải thiện. Ví dụ, khi chúng tôi lần đầu làm việc trên GPT-3, chúng tôi coi đó là một hiện vật nghiên cứu nội bộ hơn là một hệ thống sản xuất và không tích cực trong việc lọc dữ liệu đào tạo độc hại như chúng tôi có thể đã làm. Chúng tôi đã đầu tư nhiều hơn vào việc nghiên cứu và loại bỏ các tài liệu như vậy cho các mô hình tiếp theo. Chúng tôi đã mất nhiều thời gian hơn để giải quyết một số trường hợp sử dụng sai trong những trường hợp chúng tôi không có chính sách rõ ràng về chủ đề này và đã cải thiện việc lặp lại các chính sách đó. Và chúng tôi tiếp tục lặp lại để hướng tới một gói các yêu cầu về an toàn có hiệu quả tối đa trong việc giải quyết rủi ro, đồng thời cũng được truyền đạt rõ ràng cho các nhà phát triển và giảm thiểu ma sát quá mức.

Tuy nhiên, chúng tôi tin rằng cách tiếp cận của mình đã cho phép chúng tôi đo lường và giảm thiểu nhiều loại tác hại khác nhau từ việc sử dụng mô hình ngôn ngữ so với cách tiếp cận ít can thiệp hơn, đồng thời cho phép áp dụng rộng rãi các mô hình của chúng tôi vào nhiều lĩnh vực học thuật, nghệ thuật và thương mại. 

Nhiều hình dạng và kích cỡ của việc sử dụng sai mô hình ngôn ngữ

OpenAI đã tích cực nghiên cứu các rủi ro của việc sử dụng sai mục đích AI kể từ công trình nghiên cứu ban đầu của chúng tôi về  việc sử dụng AI một cách có hại vào năm 2018 và  trên GPT-2 vào năm 2019, và chúng tôi đã đặc biệt chú ý đến các hệ thống AI trao quyền cho các hoạt động ảnh hưởng. Chúng tôi đã  làm việc với các chuyên gia bên ngoài để phát triển bằng chứng về khái niệm(mở trong cửa sổ mới) và thúc đẩy cẩn thận phân tích của những rủi ro như vậy do bên thứ ba gây ra. Chúng tôi vẫn cam kết giải quyết các rủi ro liên quan đến các hoạt động ảnh hưởng được kích hoạt bằng mô hình ngôn ngữ và gần đây đã đồng tổ chức một hội thảo về chủ đề này. 

Tuy nhiên, chúng tôi đã phát hiện và ngăn chặn hàng trăm tác nhân cố gắng sử dụng sai mục đích GPT-3 cho nhiều mục đích rộng hơn là tạo ra thông tin sai lệch để gây ảnh hưởng, bao gồm cả những cách mà chúng tôi không lường trước được hoặc chúng tôi lường trước được nhưng không ngờ lại phổ biến đến vậy.  Hướng dẫn sử dụng của chúng tôi,  hướng dẫn nội dung và cơ sở hạ tầng phát hiện và ứng phó nội bộ ban đầu hướng đến các rủi ro mà chúng tôi dự đoán dựa trên nghiên cứu nội bộ và bên ngoài, chẳng hạn như tạo ra nội dung chính trị gây hiểu lầm với GPT-3 hoặc tạo ra phần mềm độc hại với Codex. Các nỗ lực phát hiện và ứng phó của chúng tôi đã phát triển theo thời gian để ứng phó với các trường hợp sử dụng sai mục đích thực sự gặp phải "trong tự nhiên" mà không nổi bật như các hoạt động gây ảnh hưởng trong các đánh giá rủi ro ban đầu của chúng tôi. Các ví dụ bao gồm quảng cáo thư rác cho các sản phẩm y tế đáng ngờ và nhập vai vào những tưởng tượng phân biệt chủng tộc.

Để hỗ trợ nghiên cứu về việc sử dụng sai mô hình ngôn ngữ và cách giảm thiểu tình trạng này, chúng tôi đang tích cực tìm hiểu các cơ hội chia sẻ số liệu thống kê về các sự cố an toàn trong năm nay, nhằm cụ thể hóa các cuộc thảo luận về việc sử dụng sai mô hình ngôn ngữ.

Khó khăn trong việc đo lường rủi ro và tác động

Nhiều khía cạnh của rủi ro và tác động của mô hình ngôn ngữ vẫn khó đo lường và do đó khó theo dõi, giảm thiểu và tiết lộ theo cách có trách nhiệm. Chúng tôi đã tích cực sử dụng các chuẩn mực học thuật hiện có để đánh giá mô hình ngôn ngữ và mong muốn tiếp tục xây dựng dựa trên công việc bên ngoài, nhưng chúng tôi cũng thấy rằng các tập dữ liệu chuẩn mực hiện có thường không phản ánh được rủi ro về an toàn và lạm dụng mà chúng tôi thấy trong thực tế .

Những hạn chế như vậy phản ánh thực tế là các tập dữ liệu học thuật hiếm khi được tạo ra với mục đích rõ ràng là thông báo việc sử dụng các mô hình ngôn ngữ trong sản xuất và không được hưởng lợi từ kinh nghiệm thu được từ việc triển khai các mô hình như vậy ở quy mô lớn. Do đó, chúng tôi đã phát triển các tập dữ liệu đánh giá và khuôn khổ mới để đo lường mức độ an toàn của các mô hình của mình, chúng tôi dự định sẽ sớm phát hành. Cụ thể, chúng tôi đã phát triển các số liệu đánh giá mới để đo lường mức độ độc hại trong đầu ra của mô hình và cũng đã phát triển các bộ phân loại nội bộ để phát hiện nội dung vi phạm  chính sách nội dung của chúng tôi, chẳng hạn như nội dung khiêu dâm, lời nói thù địch, bạo lực, quấy rối và tự làm hại bản thân. Cả hai điều này lần lượt cũng được tận dụng để cải thiện dữ liệu tiền đào tạo của chúng tôi —cụ thể là bằng cách sử dụng các bộ phân loại để lọc nội dung và các số liệu đánh giá để đo lường tác động của các can thiệp vào tập dữ liệu.

Phân loại đáng tin cậy các đầu ra của mô hình riêng lẻ theo nhiều chiều khác nhau là điều khó khăn và việc đo lường tác động xã hội của chúng ở quy mô của OpenAI API thậm chí còn khó hơn. Chúng tôi đã tiến hành một số nghiên cứu nội bộ để xây dựng sức mạnh thể chế cho phép đo lường như vậy, nhưng những nghiên cứu này thường nảy sinh nhiều câu hỏi hơn là câu trả lời.

Chúng tôi đặc biệt quan tâm đến việc hiểu rõ hơn tác động kinh tế của các mô hình của chúng tôi và sự phân bổ của những tác động đó. Chúng tôi có lý do chính đáng để tin rằng tác động của thị trường lao động từ việc triển khai các mô hình hiện tại có thể đã đáng kể theo nghĩa tuyệt đối và chúng sẽ tăng lên khi khả năng và phạm vi của các mô hình của chúng tôi tăng lên. Cho đến nay, chúng tôi đã biết về nhiều tác động cục bộ, bao gồm cải thiện năng suất đáng kể đối với các nhiệm vụ hiện có do các cá nhân thực hiện như viết quảng cáo và tóm tắt (đôi khi góp phần vào việc thay thế và tạo việc làm), cũng như các trường hợp API mở khóa các ứng dụng mới trước đây không khả thi, chẳng hạn như  tổng hợp phản hồi định tính quy mô lớn . Nhưng chúng tôi không hiểu rõ về các tác động ròng.

Chúng tôi tin rằng điều quan trọng đối với những người phát triển và triển khai các công nghệ AI mạnh mẽ là phải giải quyết cả tác động tích cực và tiêu cực của công việc của họ một cách trực diện. Chúng tôi thảo luận một số bước theo hướng đó trong phần kết luận của bài đăng này.

Mối quan hệ giữa tính an toàn và tiện ích của hệ thống AI

Trong  Hiến chương của chúng tôi , được công bố vào năm 2018, chúng tôi nói rằng chúng tôi "lo ngại về việc phát triển AGI giai đoạn cuối trở thành cuộc đua cạnh tranh mà không có thời gian cho các biện pháp phòng ngừa an toàn đầy đủ". Sau đó, chúng tôi đã công bố  một phân tích chi tiết về sự phát triển AI cạnh tranh và chúng tôi đã theo dõi chặt chẽ  các(mở trong cửa sổ mới) nghiên cứu. Đồng thời, việc triển khai các hệ thống AI thông qua API OpenAI cũng giúp chúng ta hiểu sâu hơn về sự tương tác giữa an toàn và tiện ích.

Ví dụ, các nhà phát triển rất thích các mô hình InstructGPT của chúng tôi - được tinh chỉnh để theo dõi ý định của người dùng - hơn các mô hình GPT-3 cơ bản. Tuy nhiên, đáng chú ý là các mô hình InstructGPT ban đầu không được thúc đẩy bởi các cân nhắc thương mại, mà thay vào đó nhằm mục đích đạt được tiến bộ trong các vấn đề liên kết dài hạn . Về mặt thực tế, điều này có nghĩa là khách hàng, có lẽ không có gì đáng ngạc nhiên, thích các mô hình luôn thực hiện nhiệm vụ và hiểu được ý định của người dùng, và các mô hình ít có khả năng tạo ra kết quả có hại hoặc không chính xác.  Các nghiên cứu cơ bản khác, chẳng hạn như công trình của chúng tôi về việc tận dụng thông tin thu thập được từ Internet để trả lời các câu hỏi một cách trung thực hơn, cũng có tiềm năng cải thiện tiện ích thương mại của các hệ thống AI. Những sự hiệp lực này sẽ không phải lúc nào cũng xảy ra. Ví dụ, các hệ thống mạnh hơn thường sẽ mất nhiều thời gian hơn để đánh giá và liên kết hiệu quả, làm mất đi các cơ hội lợi nhuận ngay lập tức. Và tiện ích của người dùng và tiện ích của xã hội có thể không phù hợp do các tác động bên ngoài tiêu cực - hãy xem xét việc viết quảng cáo hoàn toàn tự động, có thể có lợi cho người tạo nội dung nhưng lại không tốt cho toàn bộ hệ sinh thái thông tin.

Thật đáng khích lệ khi thấy những trường hợp có sự tương tác mạnh mẽ giữa an toàn và tiện ích, nhưng chúng tôi cam kết đầu tư vào nghiên cứu chính sách và an toàn ngay cả khi chúng phải đánh đổi với tiện ích thương mại.

“Chúng tôi cam kết đầu tư vào nghiên cứu chính sách và an toàn ngay cả khi chúng phải đánh đổi với tiện ích thương mại.”

Các cách để tham gia

Mỗi bài học trên đều đặt ra những câu hỏi mới của riêng nó. Những loại sự cố an toàn nào mà chúng ta vẫn có thể không phát hiện và dự đoán được? Làm thế nào chúng ta có thể đo lường tốt hơn các rủi ro và tác động? Làm thế nào chúng ta có thể tiếp tục cải thiện cả tính an toàn và tiện ích của các mô hình của mình, và điều hướng sự đánh đổi giữa hai điều này khi chúng phát sinh?

Chúng tôi đang tích cực thảo luận nhiều vấn đề này với các công ty khác triển khai mô hình ngôn ngữ. Nhưng chúng tôi cũng biết rằng không có tổ chức hoặc nhóm tổ chức nào có tất cả các câu trả lời và chúng tôi muốn nêu bật một số cách để độc giả có thể tham gia nhiều hơn vào việc hiểu và định hình việc triển khai các hệ thống AI tiên tiến của chúng tôi.

Đầu tiên, việc có được kinh nghiệm trực tiếp khi tương tác với các hệ thống AI tiên tiến là vô cùng quý giá để hiểu được khả năng và ý nghĩa của chúng. Chúng tôi gần đây đã kết thúc danh sách chờ API sau khi xây dựng được sự tự tin hơn vào khả năng phát hiện và phản hồi hiệu quả đối với việc sử dụng sai mục đích. Cá nhân ở  các quốc gia và vùng lãnh thổ được hỗ trợ có thể nhanh chóng truy cập vào OpenAI API bằng cách đăng ký tại đây .

Thứ hai, các nhà nghiên cứu làm việc về các chủ đề mà chúng tôi đặc biệt quan tâm như thiên vị và lạm dụng, và những người sẽ được hưởng lợi từ hỗ trợ tài chính, có thể nộp đơn xin tín dụng API được trợ cấp bằng cách sử dụng  biểu mẫu này. Nghiên cứu bên ngoài rất quan trọng để cung cấp thông tin cho sự hiểu biết của chúng ta về các hệ thống đa diện này cũng như sự hiểu biết rộng rãi hơn của công chúng.

Cuối cùng, hôm nay chúng tôi công bố chương trình nghị sự nghiên cứu  khám phá tác động của thị trường lao động liên quan đến nhóm mô hình Codex của chúng tôi và kêu gọi cộng tác viên bên ngoài thực hiện nghiên cứu này. Chúng tôi rất vui mừng được làm việc với các nhà nghiên cứu độc lập để nghiên cứu tác động của công nghệ của chúng tôi nhằm cung cấp thông tin cho các can thiệp chính sách phù hợp và cuối cùng là mở rộng tư duy của chúng tôi từ việc tạo mã sang các phương thức khác.

Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ 

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !