zalo
Chat ngay

Sử dụng GPT-4 để kiểm duyệt nội dung

Chúng tôi sử dụng GPT-4 để phát triển chính sách nội dung và đưa ra quyết định kiểm duyệt nội dung, cho phép gắn nhãn nhất quán hơn, vòng phản hồi nhanh hơn để tinh chỉnh chính sách và giảm sự tham gia của người kiểm duyệt

Kiểm duyệt nội dung đóng vai trò quan trọng trong việc duy trì sức khỏe của các nền tảng kỹ thuật số. Hệ thống kiểm duyệt nội dung sử dụng GPT-4 giúp lặp lại nhanh hơn nhiều đối với các thay đổi chính sách, rút ​​ngắn chu kỳ từ nhiều tháng xuống còn vài giờ. Tài khoản Chat GPT-4 cũng có thể diễn giải các quy tắc và sắc thái trong tài liệu chính sách nội dung dài và thích ứng ngay lập tức với các bản cập nhật chính sách, mang lại nhãn nhất quán hơn. Chúng tôi tin rằng điều này mang lại tầm nhìn tích cực hơn về tương lai của các nền tảng kỹ thuật số, nơi AI có thể giúp kiểm duyệt lưu lượng truy cập trực tuyến theo chính sách cụ thể của nền tảng và giảm bớt gánh nặng tinh thần cho một số lượng lớn người kiểm duyệt. Bất kỳ ai có quyền truy cập API OpenAI đều có thể triển khai phương pháp tiếp cận này để tạo hệ thống kiểm duyệt hỗ trợ AI của riêng họ.

Những thách thức trong việc kiểm duyệt nội dung

Kiểm duyệt nội dung đòi hỏi nỗ lực tỉ mỉ, sự nhạy cảm, hiểu biết sâu sắc về bối cảnh, cũng như khả năng thích ứng nhanh với các trường hợp sử dụng mới, khiến việc này vừa tốn thời gian vừa đầy thách thức. Theo truyền thống, gánh nặng của nhiệm vụ này thuộc về những người kiểm duyệt con người sàng lọc qua một lượng lớn nội dung để lọc ra các tài liệu độc hại và có hại, được hỗ trợ bởi các mô hình học máy nhỏ hơn theo từng ngành dọc. Quá trình này vốn chậm và có thể dẫn đến căng thẳng về mặt tinh thần cho những người kiểm duyệt con người.

Sử dụng các mô hình ngôn ngữ lớn

Chúng tôi đang khám phá việc sử dụng LLM để giải quyết những thách thức này. Các mô hình ngôn ngữ lớn của chúng tôi như GPT-4 có thể hiểu và tạo ra ngôn ngữ tự nhiên, giúp chúng có thể áp dụng vào việc kiểm duyệt nội dung. Các mô hình có thể đưa ra các phán đoán kiểm duyệt dựa trên các hướng dẫn chính sách được cung cấp cho chúng.

Với hệ thống này, quá trình phát triển và tùy chỉnh chính sách nội dung được rút ngắn từ nhiều tháng xuống còn vài giờ. 

+ Khi hướng dẫn chính sách được viết ra, các chuyên gia chính sách có thể tạo ra một tập dữ liệu giá trị bằng cách xác định một số ít ví dụ và gắn nhãn cho chúng theo chính sách.  

+ Sau đó, GPT-4 đọc chính sách và gán nhãn cho cùng một tập dữ liệu mà không cần xem câu trả lời. 

+ Bằng cách kiểm tra sự khác biệt giữa các phán đoán của GPT-4 và phán đoán của con người, các chuyên gia chính sách có thể yêu cầu GPT-4 đưa ra lý do đằng sau các nhãn của nó, phân tích sự mơ hồ trong các định nghĩa chính sách, giải quyết sự nhầm lẫn và cung cấp thêm sự làm rõ trong chính sách cho phù hợp. Chúng ta có thể lặp lại các bước 2 và 3 cho đến khi chúng ta hài lòng với chất lượng chính sách.

Quá trình lặp đi lặp lại này tạo ra các chính sách nội dung được tinh chỉnh, sau đó được chuyển thành bộ phân loại, cho phép triển khai chính sách và kiểm duyệt nội dung ở quy mô lớn.

Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ

Tùy chọn, để xử lý lượng dữ liệu lớn ở quy mô lớn, chúng ta có thể sử dụng dự đoán của GPT-4 để tinh chỉnh một mô hình nhỏ hơn nhiều.

Ý tưởng đơn giản nhưng mạnh mẽ này mang lại một số cải tiến cho các phương pháp kiểm duyệt nội dung truyền thống: 

+ Nhãn nhất quán hơn. Chính sách nội dung liên tục phát triển và thường rất chi tiết. Mọi người có thể diễn giải chính sách theo cách khác nhau hoặc một số người kiểm duyệt có thể mất nhiều thời gian hơn để tiếp thu những thay đổi chính sách mới, dẫn đến nhãn không nhất quán. Ngược lại, LLM nhạy cảm với những khác biệt chi tiết trong cách diễn đạt và có thể + thích ứng ngay lập tức với các bản cập nhật chính sách để mang lại trải nghiệm nội dung nhất quán cho người dùng.  

+ Vòng phản hồi nhanh hơn. Chu kỳ cập nhật chính sách – phát triển chính sách mới, dán nhãn và thu thập phản hồi của con người – thường có thể là một quá trình dài và kéo dài. GPT-4 có thể rút ngắn quá trình này xuống còn vài giờ, cho phép + phản hồi nhanh hơn đối với các tác hại mới.

+ Giảm gánh nặng tinh thần. Việc tiếp xúc liên tục với nội dung có hại hoặc xúc phạm có thể dẫn đến kiệt sức về mặt cảm xúc và căng thẳng về mặt tâm lý ở những người kiểm duyệt. Tự động hóa loại công việc này có lợi cho sức khỏe của những người liên quan.

Khác với AI Hiến pháp ( Bai, et al. 2022) chủ yếu dựa vào phán đoán nội tại của mô hình về những gì an toàn và không an toàn, cách tiếp cận của chúng tôi giúp lặp lại chính sách nội dung dành riêng cho nền tảng nhanh hơn nhiều và ít tốn công sức hơn. Chúng tôi khuyến khích những người thực hành về Tin cậy & An toàn thử quy trình này để kiểm duyệt nội dung, vì bất kỳ ai có quyền truy cập API OpenAI đều có thể triển khai các thử nghiệm tương tự ngay hôm nay.

Chúng tôi đang tích cực khám phá việc cải thiện hơn nữa chất lượng dự đoán của GPT-4, ví dụ, bằng cách kết hợp lý luận theo chuỗi suy nghĩ hoặc tự phê bình. Chúng tôi cũng đang thử nghiệm các cách để phát hiện những rủi ro chưa biết và, lấy cảm hứng từ Constitutional AI, hướng đến việc tận dụng các mô hình để xác định nội dung có khả năng gây hại dựa trên các mô tả cấp cao về những gì được coi là có hại. Những phát hiện này sau đó sẽ cung cấp thông tin cập nhật cho các chính sách nội dung hiện có hoặc phát triển các chính sách về các lĩnh vực rủi ro hoàn toàn mới.

Hạn chế

Các phán đoán theo mô hình ngôn ngữ dễ bị ảnh hưởng bởi các thành kiến ​​không mong muốn có thể đã được đưa vào mô hình trong quá trình đào tạo. Cũng như bất kỳ ứng dụng AI nào, kết quả và đầu ra sẽ cần được giám sát, xác thực và tinh chỉnh cẩn thận bằng cách duy trì sự tham gia của con người. Bằng cách giảm sự tham gia của con người vào một số phần của quy trình kiểm duyệt có thể được xử lý bởi mô hình ngôn ngữ, nguồn nhân lực có thể tập trung hơn vào việc giải quyết các trường hợp phức tạp nhất cần thiết cho việc tinh chỉnh chính sách. Khi chúng tôi tiếp tục tinh chỉnh và phát triển phương pháp này, chúng tôi vẫn cam kết minh bạch và sẽ tiếp tục chia sẻ những bài học kinh nghiệm và tiến bộ của mình với cộng đồng.

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !