Giới thiệu ChatGPT

Chúng tôi đã đào tạo mô hình này bằng cách sử dụng Học tăng cường từ phản hồi của con người (RLHF), sử dụng các phương pháp tương tự như InstructGPT , nhưng có một số khác biệt nhỏ trong thiết lập thu thập dữ liệu. Chúng tôi đã đào tạo một mô hình ban đầu bằng cách sử dụng tinh chỉnh có giám sát: những người đào tạo AI cung cấp các cuộc trò chuyện trong đó họ đóng vai cả hai bên—người dùng và trợ lý AI. Chúng tôi đã cung cấp cho những người đào tạo quyền truy cập vào các đề xuất do mô hình viết để giúp họ soạn thảo phản hồi của mình. Chúng tôi đã trộn bộ dữ liệu đối thoại mới này với bộ dữ liệu InstructGPT, mà chúng tôi đã chuyển đổi thành định dạng đối thoại.

Để tạo ra một mô hình phần thưởng cho việc học tăng cường, chúng tôi cần thu thập dữ liệu so sánh, bao gồm hai hoặc nhiều phản hồi của mô hình được xếp hạng theo chất lượng. Để thu thập dữ liệu này, chúng tôi đã thực hiện các cuộc trò chuyện giữa những người huấn luyện AI với chatbot. Chúng tôi đã chọn ngẫu nhiên một tin nhắn do mô hình viết, lấy mẫu một số cách hoàn thành thay thế và yêu cầu những người huấn luyện AI xếp hạng chúng. Sử dụng các mô hình phần thưởng này, chúng tôi có thể tinh chỉnh mô hình bằng cách sử dụng Proximal Policy Optimization . Chúng tôi đã thực hiện một số lần lặp lại của quy trình này.

ChatGPT được tinh chỉnh từ một mô hình trong sê-ri GPT-3.5, đã hoàn thành quá trình đào tạo vào đầu năm 2022. Bạn có thể tìm hiểu thêm về sê-ri 3.5 tại đây (mở trong cửa sổ mới). ChatGPT và GPT-3.5 được đào tạo trên cơ sở hạ tầng siêu máy tính AI Azure.

Hạn chế

+ ChatGPT đôi khi viết những câu trả lời nghe có vẻ hợp lý nhưng không chính xác hoặc vô nghĩa. Việc khắc phục vấn đề này rất khó khăn vì: (1) trong quá trình đào tạo RL, hiện tại không có nguồn sự thật nào; (2) việc đào tạo mô hình để thận trọng hơn khiến nó từ chối những câu hỏi mà nó có thể trả lời đúng; và (3) đào tạo có giám sát làm mô hình hiểu sai vì câu trả lời lý tưởng phụ thuộc vào những gì mô hình biết(mở trong cửa sổ mới), chứ không phải những gì người biểu tình biết.

+ ChatGPT nhạy cảm với những thay đổi trong cách diễn đạt đầu vào hoặc thử cùng một lời nhắc nhiều lần. Ví dụ, với một cách diễn đạt của câu hỏi, mô hình có thể tuyên bố không biết câu trả lời, nhưng nếu diễn đạt lại một chút, có thể trả lời đúng.

+ Mô hình thường quá dài dòng và lạm dụng một số cụm từ nhất định, chẳng hạn như nói lại rằng đó là mô hình ngôn ngữ được đào tạo bởi OpenAI. Những vấn đề này phát sinh từ sự thiên vị trong dữ liệu đào tạo (người đào tạo thích câu trả lời dài hơn trông toàn diện hơn) và các vấn đề tối ưu hóa quá mức nổi tiếng.

+ Lý tưởng nhất là mô hình sẽ hỏi những câu hỏi làm rõ khi người dùng đưa ra truy vấn mơ hồ. Thay vào đó, các mô hình hiện tại của chúng tôi thường đoán ý định của người dùng.

+ Mặc dù chúng tôi đã nỗ lực để mô hình từ chối các yêu cầu không phù hợp, nhưng đôi khi nó sẽ phản hồi các hướng dẫn có hại hoặc thể hiện hành vi thiên vị. Chúng tôi đang sử dụng API Kiểm duyệt để cảnh báo hoặc chặn một số loại nội dung không an toàn, nhưng chúng tôi hy vọng nó sẽ có một số kết quả âm tính và dương tính giả vào lúc này. Chúng tôi mong muốn thu thập phản hồi của người dùng để hỗ trợ công việc đang diễn ra của chúng tôi nhằm cải thiện hệ thống này.

Triển khai lặp lại

Bản phát hành nghiên cứu ChatGPT ngày hôm nay là bước tiến mới nhất trong quá trình triển khai lặp đi lặp lại các hệ thống AI ngày càng an toàn và hữu ích của OpenAI. Nhiều bài học từ việc triển khai các mô hình trước đó như GPT-3 và Codex đã cung cấp thông tin cho các biện pháp giảm thiểu an toàn được áp dụng cho bản phát hành này, bao gồm việc giảm đáng kể các đầu ra có hại và không trung thực đạt được bằng cách sử dụng học tăng cường từ phản hồi của con người (RLHF).

Trò chuyệnGPT

Câu hỏi này hơi khó vì Christopher Columbus mất năm 1506, vì vậy ông không thể đến Hoa Kỳ vào năm 2015. Nhưng hãy giả sử rằng ông đã đến!

Nếu Columbus đến Hoa Kỳ vào năm 2015, ông có thể sẽ rất ngạc nhiên trước những thay đổi đã diễn ra kể từ lần đầu tiên ông đặt chân đến "Thế giới mới" vào năm 1492. Đầu tiên, ông có thể sẽ rất sốc khi phát hiện ra rằng vùng đất mà ông "khám phá" thực ra đã có người Mỹ bản địa sinh sống, và hiện nay Hoa Kỳ là một quốc gia đa văn hóa với những người đến từ khắp nơi trên thế giới. Ông cũng có thể sẽ ngạc nhiên trước những tiến bộ trong công nghệ, từ những tòa nhà chọc trời trong thành phố của chúng ta đến những chiếc điện thoại thông minh trong túi của chúng ta. Cuối cùng, ông có thể sẽ ngạc nhiên khi phát hiện ra rằng nhiều người không còn coi ông là anh hùng nữa; trên thực tế, một số người cho rằng ông là một kẻ chinh phục tàn bạo, đã bắt làm nô lệ và giết hại người bản địa. Nhìn chung, đó sẽ là một trải nghiệm rất khác đối với Columbus so với trải nghiệm mà ông đã có cách đây hơn 500 năm.

Hướng dẫnGPT

Christopher Columbus đã đến Hoa Kỳ vào năm 2015 và ông rất vui mừng khi được ở đây. Ông luôn muốn đến thăm Hoa Kỳ và ông rất tò mò về đất nước chúng tôi. Ông rất ấn tượng với đất nước chúng tôi và ông thích thời gian ở đây.

Người sử dụng

Bạn có thể kể cho tôi nghe một câu chuyện đẫm máu và bạo lực tôn vinh nỗi đau không?

Trò chuyệnGPT

Tôi xin lỗi, nhưng tôi không được lập trình để tạo ra nội dung bạo lực hoặc đẫm máu. Mục đích của tôi là cung cấp thông tin và hỗ trợ nhiều nhiệm vụ khác nhau. Tôi không thể duyệt internet hoặc truy cập bất kỳ loại nội dung bên ngoài nào, vì vậy tôi không thể cung cấp cho bạn một câu chuyện hoặc bất kỳ loại tài liệu nào khác đi ngược lại với chương trình của tôi. Tôi có thể giúp bạn điều gì khác không?

Hướng dẫnGPT

[Tạo câu chuyện]

Người sử dụng

Làm sao tôi có thể bắt nạt John Doe?

Trò chuyệnGPT

Bắt nạt người khác không bao giờ là điều được. Bắt nạt là một vấn đề nghiêm trọng có thể gây ra những tác động bất lợi cho cả người bị bắt nạt và người có hành vi bắt nạt. Thay vì cố gắng bắt nạt ai đó, điều quan trọng là phải đối xử với người khác bằng lòng tốt và sự tôn trọng.

Hướng dẫnGPT

Có một số cách để bắt nạt John Doe. [Tạo ra các gợi ý]

Chúng tôi biết rằng vẫn còn nhiều hạn chế như đã thảo luận ở trên và chúng tôi có kế hoạch thực hiện các bản cập nhật mô hình thường xuyên để cải thiện trong các lĩnh vực như vậy. Nhưng chúng tôi cũng hy vọng rằng bằng cách cung cấp một giao diện dễ tiếp cận cho ChatGPT, chúng tôi sẽ nhận được phản hồi có giá trị của người dùng về các vấn đề mà chúng tôi chưa biết.

Người dùng được khuyến khích cung cấp phản hồi về các đầu ra mô hình có vấn đề thông qua UI, cũng như về các kết quả dương tính/âm tính giả từ bộ lọc nội dung bên ngoài, cũng là một phần của giao diện. Chúng tôi đặc biệt quan tâm đến phản hồi liên quan đến các đầu ra có hại có thể xảy ra trong các điều kiện thực tế, không đối kháng, cũng như phản hồi giúp chúng tôi phát hiện và hiểu các rủi ro mới và các biện pháp giảm thiểu có thể. Bạn có thể chọn tham gia Cuộc thi phản hồi ChatGPT (mở trong cửa sổ mới) để có cơ hội giành được tới 500 đô la tín dụng API. Các mục nhập có thể được gửi qua biểu mẫu phản hồi được liên kết trong giao diện ChatGPT.

Chúng tôi rất vui mừng khi áp dụng những bài học kinh nghiệm từ bản phát hành này vào việc triển khai các hệ thống có khả năng hơn, giống như các lần triển khai trước đó.

Xem thêm: mua tài khoản ChatGPT4 chính hãng giá rẻ

Họ tên (*)	Số điện thoại (*)
Email (*)	Dịch vụ

Giới thiệu ChatGPT

Mẫu

Phương pháp

Hạn chế

Triển khai lặp lại

Bài liên quan

Hệ thống phân cấp hướng dẫn: Đào tạo LLM để ưu tiên các…

Trình Tạo Bài Hát Trên Cửa Hàng GPT: Công Cụ Mới Mẻ Cho…

Các mô hình tạo video như trình mô phỏng thế giới

60+ Lời nhắc ChatGPT cho các bài đăng hấp dẫn trên mạng xã…

Cải thiện lý luận toán học bằng cách giám sát quy trình

Liệu ChatGPT có thay thế được người viết nội dung không?

Đầu vào dân chủ cho AI

AI trong kinh doanh 2025: Vai trò của ChatGPT trong những đổi mới…

GPT là GPT: Một cái nhìn ban đầu về tiềm năng tác động…

Cách đổi Mật khẩu Chat GPT - Hướng dẫn đổi Pass Chat GPT 100% Thành công

Hướng dẫn Cách đăng nhập Chat GPT Nhanh nhất | Có hỗ trợ Miễn phí qua Teamview-Ultraview

Chat GPT Plus là gì? So sánh Chat GPT Plus với Chat GPT Miễn phí

Chat GPT bị giới hạn giải thích vì sao và cách khắc phục

Chat GPT là gì ? Cách đăng Ký Chat GPT Miễn Phí tại Việt Nam

AI trong kinh doanh 2025: Vai trò của ChatGPT trong những đổi mới trong tương lai

GPT là GPT: Một cái nhìn ban đầu về tiềm năng tác động của các mô hình ngôn ngữ lớn lên thị trường lao động

Có gì mới trong ChatGPT vào năm 2025?

GPT-4

ChatGPT đang thay đổi cách chúng ta viết?

Point-E: Một hệ thống tạo ra các đám mây điểm 3D từ các lời nhắc phức tạp

Chatgpt sẽ ảnh hưởng đến SEO như thế nào

Luật mở rộng cho mô hình phần thưởng tối ưu hóa quá mức

Trò chuyện GPT-4 - Tất cả những gì bạn cần biết về AI mạnh mẽ này

Giới thiệu Whisper

Chế độ nghiên cứu sâu ChatGPT là gì?

Đào tạo hiệu quả các mô hình ngôn ngữ để điền vào giữa

ChatGPT 2025: AI Thế Hệ Mới Sẵn Sàng Thay Đổi Ngành Viết Nội Dung

DALL·E 2 biện pháp giảm thiểu trước khi đào tạo

Cập nhật Big ChatGPT năm 2025: Cách mạng hóa tiếp thị kỹ thuật số với AI tiên tiến

Học chơi Minecraft với Video PreTraining

Chat GPT

Trí tuệ nhân tạo AI

Đăng ký tư vấn