Cách tiếp cận của chúng tôi đối với dữ liệu và AI

AI nên mở rộng cơ hội cho mọi người. Bằng cách chuyển đổi thông tin theo những cách mới, các hệ thống AI giúp chúng ta giải quyết vấn đề và thể hiện bản thân. Ngày nay, các công cụ AI của chúng tôi như tài khoản ChatGPT 4.0 đang được sử dụng trên toàn thế giới để giúp nông dân ở Kenya và Ấn Độ tăng năng suất cây trồng ( Digital Green ), các nhà nghiên cứu đẩy nhanh quá trình khám phá thuốc ( Moderna ), chính phủ hỗ trợ lực lượng lao động của họ ( Tiểu bang Pennsylvania(mở trong cửa sổ mới)), các nhà giáo dục thúc đẩy việc học của học sinh và những người khiếm thị điều hướng thế giới của chúng ta ( Be My Eyes ). Các công cụ AI như DALL·E và Sora (hiện đang trong giai đoạn xem trước nghiên cứu) đang trao quyền cho những người sáng tạo từ những nghệ sĩ đầy tham vọng đến những nhà làm phim .

Sứ mệnh của chúng tôi là mang lại lợi ích cho toàn thể nhân loại. Điều này không chỉ bao gồm người dùng của chúng tôi mà còn bao gồm cả những người sáng tạo và nhà xuất bản. Mặc dù chúng tôi tin rằng các tiền lệ pháp lý và chính sách công lành mạnh khiến việc học trở nên công bằng, chúng tôi cũng cảm thấy rằng điều quan trọng là chúng tôi phải đóng góp vào việc phát triển một hợp đồng xã hội có lợi cho nội dung trong thời đại AI.

Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ

Chúng tôi tin rằng các hệ thống AI nên mang lại lợi ích và tôn trọng sự lựa chọn của những người sáng tạo và chủ sở hữu nội dung. Chúng tôi liên tục cải thiện các hệ thống hàng đầu trong ngành của mình để phản ánh sở thích của chủ sở hữu nội dung và tận tâm xây dựng các sản phẩm và mô hình kinh doanh để thúc đẩy các hệ sinh thái sôi động cho những người sáng tạo và nhà xuất bản.

Chúng tôi không phải là nhà văn, nghệ sĩ hay nhà báo chuyên nghiệp, chúng tôi cũng không làm trong các ngành kinh doanh đó. Chúng tôi tập trung vào việc xây dựng các công cụ để giúp những nghề này sáng tạo và đạt được nhiều thành tựu hơn. Để thực hiện được điều này, chúng tôi lắng nghe và làm việc chặt chẽ với các thành viên của những cộng đồng này và mong muốn tiếp tục đối thoại. Hôm nay, chúng tôi sẽ chia sẻ nhiều hơn về tình hình hiện tại và nơi chúng tôi đang hướng tới.

Chúng tôi tôn trọng sự lựa chọn của người sáng tạo và chủ sở hữu nội dung trên AI

Nhiều thập kỷ trước, tiêu chuẩn robots.txt đã được giới thiệu và được hệ sinh thái Internet tự nguyện áp dụng cho các nhà xuất bản web để chỉ ra những phần nào của trang web mà trình thu thập dữ liệu web có thể truy cập.

Mùa hè năm ngoái, OpenAI đã tiên phong trong việc sử dụng quyền của trình thu thập dữ liệu web cho AI, cho phép các nhà xuất bản web thể hiện sở thích của họ về việc sử dụng nội dung của họ trong AI. Chúng tôi tính đến những tín hiệu này mỗi khi đào tạo một mô hình mới.

Tuy nhiên, chúng tôi hiểu rằng đây là những giải pháp chưa hoàn thiện vì nhiều người sáng tạo không kiểm soát được các trang web nơi nội dung của họ có thể xuất hiện và nội dung thường được trích dẫn, đánh giá, phối lại, đăng lại và sử dụng làm nguồn cảm hứng trên nhiều miền. Chúng tôi cần một giải pháp hiệu quả, có thể mở rộng quy mô để chủ sở hữu nội dung thể hiện sở thích của họ về việc sử dụng nội dung của họ trong các hệ thống AI.

Chúng tôi đang xây dựng Trình quản lý phương tiện để chủ sở hữu nội dung có thể quản lý cách sử dụng tác phẩm của họ trong AI

OpenAI đang phát triển Media Manager, một công cụ cho phép người sáng tạo và chủ sở hữu nội dung cho chúng tôi biết họ sở hữu những gì và chỉ định cách họ muốn đưa tác phẩm của mình vào hoặc loại trừ khỏi nghiên cứu và đào tạo về máy học. Theo thời gian, chúng tôi có kế hoạch giới thiệu thêm các lựa chọn và tính năng.

Điều này sẽ đòi hỏi nghiên cứu máy học tiên tiến để xây dựng một công cụ đầu tiên thuộc loại này nhằm giúp chúng tôi xác định văn bản, hình ảnh, âm thanh và video có bản quyền trên nhiều nguồn và phản ánh sở thích của người sáng tạo.

Chúng tôi đang hợp tác với những người sáng tạo, chủ sở hữu nội dung và cơ quan quản lý khi phát triển Media Manager. Mục tiêu của chúng tôi là đưa công cụ này vào hoạt động vào năm 2025 và chúng tôi hy vọng nó sẽ thiết lập một tiêu chuẩn trong toàn ngành AI.

Chúng tôi đang xây dựng các sản phẩm mang lại lợi ích cho người dùng, người sáng tạo và nhà xuất bản trong một hệ sinh thái sôi động

Ngày nay, chúng ta đang sống trong một nền kinh tế chú ý được xây dựng cho các nhà quảng cáo hơn là người dùng và số lượng hơn là chất lượng. Tham vọng của chúng tôi là sử dụng AI để thay đổi điều này: trao quyền cho người sáng tạo và nhà xuất bản và nâng cao trải nghiệm của người dùng.

Chúng tôi liên tục làm cho các sản phẩm của mình trở thành công cụ khám phá hữu ích hơn. Gần đây, chúng tôi đã cải thiện các liên kết nguồn trong ChatGPT (mở trong cửa sổ mới) để cung cấp cho người dùng bối cảnh tốt hơn và các nhà xuất bản web những cách mới để kết nối với đối tượng của chúng tôi.

Chúng tôi cũng đang hợp tác với các đối tác để hiển thị nội dung của họ trong các sản phẩm của chúng tôi và tăng cường kết nối của họ với độc giả. Chúng tôi đã công bố quan hệ đối tác với các nhà xuất bản tin tức toàn cầu từ Financial Times , đến Le Monde , Prisa Media , Axel Springer và nhiều hơn nữa, để hiển thị nội dung của họ trong ChatGPT và làm phong phú thêm trải nghiệm của người dùng về các chủ đề tin tức. Nhiều cải tiến hơn đang trên đường đến. Nội dung này cũng có thể được sử dụng để đào tạo ChatGPT để hiển thị tốt hơn nội dung của nhà xuất bản có liên quan đến người dùng và cải thiện các công cụ của chúng tôi cho phòng tin tức.

Quan hệ đối tác của chúng tôi được xây dựng để mang lại lợi ích cho các đối tác và người dùng của họ, giúp các mô hình của chúng tôi hữu ích hơn cho nhân viên, khách hàng và cộng đồng của họ. Để giúp thúc đẩy các nguồn tài nguyên giáo dục, chúng tôi đã hợp tác với các tổ chức phi lợi nhuận Khan Academy và ExamSolutions có trụ sở tại Vương quốc Anh(mở trong cửa sổ mới)để cải thiện hiệu suất toán học của mô hình, giúp tăng tốc khả năng mở rộng quyền truy cập vào gia sư AI được cá nhân hóa trên nền tảng của họ.

Hiểu các mô hình nền tảng của chúng tôi và cách chúng tôi xây dựng chúng

Chúng tôi thiết kế các mô hình AI của mình thành những cỗ máy học tập chứ không phải cơ sở dữ liệu

Các mô hình AI học từ các mối quan hệ trong thông tin để tạo ra thứ gì đó mới; chúng không lưu trữ dữ liệu như cơ sở dữ liệu. Khi chúng ta đào tạo các mô hình ngôn ngữ, chúng ta lấy hàng nghìn tỷ từ và yêu cầu máy tính đưa ra một phương trình mô tả tốt nhất mối quan hệ giữa các từ và quy trình cơ bản tạo ra chúng. Sau khi quá trình đào tạo hoàn tất, mô hình AI không giữ lại quyền truy cập vào dữ liệu được phân tích trong quá trình đào tạo. ChatGPT giống như một giáo viên đã học được từ nhiều nghiên cứu trước đó và có thể giải thích mọi thứ vì cô ấy đã học được mối quan hệ giữa các khái niệm, nhưng không lưu trữ tài liệu trong đầu.

Các mô hình của chúng tôi được thiết kế để giúp chúng tôi tạo ra nội dung và ý tưởng mới – không phải để lặp lại hoặc “nhồi nhét” nội dung. Các mô hình AI có thể nêu các sự kiện, vốn thuộc phạm vi công cộng. Nếu trong những trường hợp hiếm hoi, một mô hình vô tình lặp lại nội dung biểu cảm, thì đó là lỗi của quy trình học máy. Lỗi này có nhiều khả năng xảy ra với nội dung thường xuyên xuất hiện trong các tập dữ liệu đào tạo, chẳng hạn như nội dung xuất hiện trên nhiều trang web công cộng khác nhau do thường xuyên được trích dẫn. Chúng tôi sử dụng các kỹ thuật tiên tiến trong suốt quá trình đào tạo và tại đầu ra, cho API hoặc ChatGPT của chúng tôi, để ngăn ngừa sự lặp lại và chúng tôi liên tục cải tiến thông qua nghiên cứu và phát triển đang diễn ra.

Chúng tôi sử dụng dữ liệu rộng và đa dạng để xây dựng AI tốt nhất cho mọi người

Chúng tôi muốn các mô hình AI của mình học hỏi từ càng nhiều ngôn ngữ, văn hóa, chủ đề và ngành công nghiệp càng tốt để chúng có thể mang lại lợi ích cho càng nhiều người càng tốt. Các tập dữ liệu càng đa dạng thì kiến thức, sự hiểu biết và ngôn ngữ của các mô hình càng đa dạng - giống như một người đã tiếp xúc với nhiều quan điểm và trải nghiệm văn hóa khác nhau - và AI có thể phục vụ an toàn cho càng nhiều người và quốc gia.

Mỗi thế hệ mô hình nền tảng mới được đào tạo từ đầu trên một tập dữ liệu mới. Chúng tôi liên tục cải thiện kiến trúc của mình và tăng quy mô cũng như tính đa dạng của các tập dữ liệu của mình đáng kể so với các mô hình trước đây. Không giống như các công ty lớn hơn trong lĩnh vực AI, chúng tôi không có một khối dữ liệu lớn được thu thập trong nhiều thập kỷ. Chúng tôi chủ yếu dựa vào thông tin có sẵn công khai để dạy các mô hình của mình cách trở nên hữu ích.

Chúng tôi đào tạo các mô hình của mình bằng cách sử dụng:

+ Chọn dữ liệu có sẵn công khai, chủ yếu được thu thập từ các tập dữ liệu học máy theo tiêu chuẩn công nghiệp và thu thập dữ liệu web, tương tự như công cụ tìm kiếm. Chúng tôi loại trừ các nguồn mà chúng tôi biết là có tường phí, chủ yếu là tổng hợp thông tin nhận dạng cá nhân, có nội dung vi phạm chính sách của chúng tôi hoặc đã chọn không tham gia.

+ Dữ liệu độc quyền từ các quan hệ đối tác dữ liệu . Chúng tôi hợp tác để truy cập nội dung không công khai, chẳng hạn như lưu trữ và siêu dữ liệu. Các đối tác của chúng tôi bao gồm từ một thư viện video tư nhân lớn cho hình ảnh và video để đào tạo Sora đến Chính phủ Iceland để giúp bảo tồn ngôn ngữ bản địa của họ. Chúng tôi không theo đuổi quan hệ đối tác trả phí cho thông tin hoàn toàn công khai.

+ Phản hồi của con người từ các huấn luyện viên AI, nhóm đỏ, nhân viên và người dùng có cài đặt kiểm soát dữ liệu cho phép cải thiện mô hình.

Chúng tôi cẩn thận giảm thiểu việc xử lý thông tin cá nhân và thông tin nhạy cảm, và chúng tôi đào tạo các mô hình của mình để không cung cấp thông tin riêng tư hoặc thông tin nhạy cảm về mọi người. Chúng tôi sử dụng một số kỹ thuật để xử lý dữ liệu thô để sử dụng an toàn trong đào tạo và ngày càng sử dụng các mô hình AI để giúp chúng tôi dọn dẹp, chuẩn bị và tạo dữ liệu.

Chúng tôi không đào tạo về dữ liệu kinh doanh của khách hàng, bao gồm dữ liệu từ ChatGPT Team, ChatGPT Enterprise hoặc API Platform của chúng tôi. Người dùng ChatGPT Free và Plus có thể kiểm soát việc họ có đóng góp vào các cải tiến mô hình trong tương lai trong cài đặt của họ hay không (mở trong cửa sổ mới).

Chúng tôi đang xây dựng quan hệ đối tác

AI phát triển nhanh chóng và chúng tôi biết rằng mục tiêu của mình không thể đạt được một mình. Chúng tôi cam kết hợp tác với những người sáng tạo và nhà xuất bản, tạo ra các quan hệ đối tác cùng có lợi, hỗ trợ các hệ sinh thái lành mạnh và khám phá các mô hình kinh tế mới. Chúng tôi cảm ơn người dùng và đối tác đã hợp tác với chúng tôi về những chủ đề quan trọng này.

Họ tên (*)	Số điện thoại (*)
Email (*)	Dịch vụ