Chúng tôi đã đào tạo một mô hình có tên là ChatGPT, mô hình này tương tác theo cách trò chuyện. Định dạng đối thoại giúp ChatGPT có thể trả lời các câu hỏi tiếp theo, thừa nhận lỗi của mình, thách thức các tiền đề không chính xác và từ chối các yêu cầu không phù hợp.
ChatGPT là mô hình tương tự như InstructGPT , được đào tạo để thực hiện theo hướng dẫn một cách nhanh chóng và cung cấp phản hồi chi tiết.
Chúng tôi rất vui mừng giới thiệu ChatGPT để nhận được phản hồi của người dùng và tìm hiểu về điểm mạnh và điểm yếu của nó. Trong quá trình xem trước nghiên cứu, việc sử dụng ChatGPT là miễn phí. Hãy dùng thử ngay tại chatgpt.com(mở trong cửa sổ mới).
- Xem thêm: tài khoản ChatGPT Plus chính hãng giá rẻ tại đây
Mẫu
mã này không hoạt động như tôi mong đợi — tôi phải sửa nó như thế nào?
resultWorkerErr := make(chan error) defer close(resultWorkerErr) go func() { defer cancel() resultWorkerErr <- b.resultWorker(ctx) }() err := b.worker(ctx) cancel() if err == nil { return <-resultWorkerErr } return multierror.Append(err, <-resultWorkerErr)
resultWorkerErrkhông bao giờ đóng, điều đó có nghĩa là mã có khả năng bị treo nếu kênh resultWorkerErrkhông bao giờ được ghi vào. Điều này có thể xảy ra nếu b.resultWorkerkhông bao giờ trả về lỗi hoặc nếu nó bị hủy trước khi có cơ hội trả về lỗi.resultWorkerErrkênh sau khi ghi vào. Ví dụ, bạn có thể thêm dòng mã sau vào sau dòng gửi lỗi trên kênh:close(resultworkerErr)Điều này sẽ đảm bảo rằng resultWorkerErrkênh luôn đóng, ngay cả khi b.resultWorkerkhông bao giờ trả về lỗi. Một lần nữa, rất khó để nói liệu đây có phải là sự cố bạn đang gặp phải hay không nếu không có thêm thông tin về sự cố bạn đang gặp phải. Bạn có thể cung cấp thêm chi tiết về những gì đang xảy ra khi bạn chạy mã không?
Phương pháp
Chúng tôi đã đào tạo mô hình này bằng cách sử dụng Học tăng cường từ phản hồi của con người (RLHF), sử dụng các phương pháp tương tự như InstructGPT , nhưng có một số khác biệt nhỏ trong thiết lập thu thập dữ liệu. Chúng tôi đã đào tạo một mô hình ban đầu bằng cách sử dụng tinh chỉnh có giám sát: những người đào tạo AI cung cấp các cuộc trò chuyện trong đó họ đóng vai cả hai bên—người dùng và trợ lý AI. Chúng tôi đã cung cấp cho những người đào tạo quyền truy cập vào các đề xuất do mô hình viết để giúp họ soạn thảo phản hồi của mình. Chúng tôi đã trộn bộ dữ liệu đối thoại mới này với bộ dữ liệu InstructGPT, mà chúng tôi đã chuyển đổi thành định dạng đối thoại.
Để tạo ra một mô hình phần thưởng cho việc học tăng cường, chúng tôi cần thu thập dữ liệu so sánh, bao gồm hai hoặc nhiều phản hồi của mô hình được xếp hạng theo chất lượng. Để thu thập dữ liệu này, chúng tôi đã thực hiện các cuộc trò chuyện giữa những người huấn luyện AI với chatbot. Chúng tôi đã chọn ngẫu nhiên một tin nhắn do mô hình viết, lấy mẫu một số cách hoàn thành thay thế và yêu cầu những người huấn luyện AI xếp hạng chúng. Sử dụng các mô hình phần thưởng này, chúng tôi có thể tinh chỉnh mô hình bằng cách sử dụng Proximal Policy Optimization . Chúng tôi đã thực hiện một số lần lặp lại của quy trình này.
.png)
ChatGPT được tinh chỉnh từ một mô hình trong sê-ri GPT-3.5, đã hoàn thành quá trình đào tạo vào đầu năm 2022. Bạn có thể tìm hiểu thêm về sê-ri 3.5 tại đây (mở trong cửa sổ mới). ChatGPT và GPT-3.5 được đào tạo trên cơ sở hạ tầng siêu máy tính AI Azure.
Hạn chế
+ ChatGPT đôi khi viết những câu trả lời nghe có vẻ hợp lý nhưng không chính xác hoặc vô nghĩa. Việc khắc phục vấn đề này rất khó khăn vì: (1) trong quá trình đào tạo RL, hiện tại không có nguồn sự thật nào; (2) việc đào tạo mô hình để thận trọng hơn khiến nó từ chối những câu hỏi mà nó có thể trả lời đúng; và (3) đào tạo có giám sát làm mô hình hiểu sai vì câu trả lời lý tưởng phụ thuộc vào những gì mô hình biết(mở trong cửa sổ mới), chứ không phải những gì người biểu tình biết.
+ ChatGPT nhạy cảm với những thay đổi trong cách diễn đạt đầu vào hoặc thử cùng một lời nhắc nhiều lần. Ví dụ, với một cách diễn đạt của câu hỏi, mô hình có thể tuyên bố không biết câu trả lời, nhưng nếu diễn đạt lại một chút, có thể trả lời đúng.
+ Mô hình thường quá dài dòng và lạm dụng một số cụm từ nhất định, chẳng hạn như nói lại rằng đó là mô hình ngôn ngữ được đào tạo bởi OpenAI. Những vấn đề này phát sinh từ sự thiên vị trong dữ liệu đào tạo (người đào tạo thích câu trả lời dài hơn trông toàn diện hơn) và các vấn đề tối ưu hóa quá mức nổi tiếng.
+ Lý tưởng nhất là mô hình sẽ hỏi những câu hỏi làm rõ khi người dùng đưa ra truy vấn mơ hồ. Thay vào đó, các mô hình hiện tại của chúng tôi thường đoán ý định của người dùng.
+ Mặc dù chúng tôi đã nỗ lực để mô hình từ chối các yêu cầu không phù hợp, nhưng đôi khi nó sẽ phản hồi các hướng dẫn có hại hoặc thể hiện hành vi thiên vị. Chúng tôi đang sử dụng API Kiểm duyệt để cảnh báo hoặc chặn một số loại nội dung không an toàn, nhưng chúng tôi hy vọng nó sẽ có một số kết quả âm tính và dương tính giả vào lúc này. Chúng tôi mong muốn thu thập phản hồi của người dùng để hỗ trợ công việc đang diễn ra của chúng tôi nhằm cải thiện hệ thống này.
Triển khai lặp lại
Bản phát hành nghiên cứu ChatGPT ngày hôm nay là bước tiến mới nhất trong quá trình triển khai lặp đi lặp lại các hệ thống AI ngày càng an toàn và hữu ích của OpenAI. Nhiều bài học từ việc triển khai các mô hình trước đó như GPT-3 và Codex đã cung cấp thông tin cho các biện pháp giảm thiểu an toàn được áp dụng cho bản phát hành này, bao gồm việc giảm đáng kể các đầu ra có hại và không trung thực đạt được bằng cách sử dụng học tăng cường từ phản hồi của con người (RLHF).
Chúng tôi biết rằng vẫn còn nhiều hạn chế như đã thảo luận ở trên và chúng tôi có kế hoạch thực hiện các bản cập nhật mô hình thường xuyên để cải thiện trong các lĩnh vực như vậy. Nhưng chúng tôi cũng hy vọng rằng bằng cách cung cấp một giao diện dễ tiếp cận cho ChatGPT, chúng tôi sẽ nhận được phản hồi có giá trị của người dùng về các vấn đề mà chúng tôi chưa biết.
Người dùng được khuyến khích cung cấp phản hồi về các đầu ra mô hình có vấn đề thông qua UI, cũng như về các kết quả dương tính/âm tính giả từ bộ lọc nội dung bên ngoài, cũng là một phần của giao diện. Chúng tôi đặc biệt quan tâm đến phản hồi liên quan đến các đầu ra có hại có thể xảy ra trong các điều kiện thực tế, không đối kháng, cũng như phản hồi giúp chúng tôi phát hiện và hiểu các rủi ro mới và các biện pháp giảm thiểu có thể. Bạn có thể chọn tham gia Cuộc thi phản hồi ChatGPT (mở trong cửa sổ mới) để có cơ hội giành được tới 500 đô la tín dụng API. Các mục nhập có thể được gửi qua biểu mẫu phản hồi được liên kết trong giao diện ChatGPT.
Chúng tôi rất vui mừng khi áp dụng những bài học kinh nghiệm từ bản phát hành này vào việc triển khai các hệ thống có khả năng hơn, giống như các lần triển khai trước đó.
Xem thêm: mua tài khoản ChatGPT4 chính hãng giá rẻ

Cách đổi Mật khẩu Chat GPT - Hướng dẫn đổi Pass Chat GPT 100% Thành công
Hướng dẫn Cách đăng nhập Chat GPT Nhanh nhất | Có hỗ trợ Miễn phí qua Teamview-Ultraview
Chat GPT Plus là gì? So sánh Chat GPT Plus với Chat GPT Miễn phí
Chat GPT bị giới hạn giải thích vì sao và cách khắc phục
Chat GPT là gì ? Cách đăng Ký Chat GPT Miễn Phí tại Việt Nam