zalo
Chat ngay

Giới thiệu ChatGPT

Chúng tôi đã đào tạo một mô hình có tên là ChatGPT, mô hình này tương tác theo cách trò chuyện. Định dạng đối thoại giúp ChatGPT có thể trả lời các câu hỏi tiếp theo, thừa nhận lỗi của mình, thách thức các tiền đề không chính xác và từ chối các yêu cầu không phù hợp.

ChatGPT là mô hình tương tự như  InstructGPT , được đào tạo để thực hiện theo hướng dẫn một cách nhanh chóng và cung cấp phản hồi chi tiết.

Chúng tôi rất vui mừng giới thiệu ChatGPT để nhận được phản hồi của người dùng và tìm hiểu về điểm mạnh và điểm yếu của nó. Trong quá trình xem trước nghiên cứu, việc sử dụng ChatGPT là miễn phí. Hãy dùng thử ngay tại  chatgpt.com(mở trong cửa sổ mới).

Mẫu

Người sử dụng

mã này không hoạt động như tôi mong đợi — tôi phải sửa nó như thế nào?

resultWorkerErr := make(chan error) defer close(resultWorkerErr) go func() { defer cancel() resultWorkerErr <- b.resultWorker(ctx) }() err := b.worker(ctx) cancel() if err == nil { return <-resultWorkerErr } return multierror.Append(err, <-resultWorkerErr)

Trò chuyệnGPT
Thật khó để nói điều gì sai với mã nếu không có thêm ngữ cảnh. Bạn có thể cung cấp thêm thông tin về những gì mã được cho là làm và những gì không hoạt động như mong đợi không? Ngoài ra, đây có phải là toàn bộ mã hay chỉ là một phần của nó?
Người sử dụng
chỉ là một phần của nó — lỗi không bao giờ xuất hiện. Tôi nghĩ có điều gì đó không ổn với kênh
Trò chuyệnGPT
Thật khó để nói nếu không có thêm thông tin về việc mã được cho là sẽ làm gì và điều gì sẽ xảy ra khi nó được thực thi. Một vấn đề tiềm ẩn với mã bạn cung cấp là kênh resultWorkerErrkhông bao giờ đóng, điều đó có nghĩa là mã có khả năng bị treo nếu kênh resultWorkerErrkhông bao giờ được ghi vào. Điều này có thể xảy ra nếu b.resultWorkerkhông bao giờ trả về lỗi hoặc nếu nó bị hủy trước khi có cơ hội trả về lỗi.
 
Để khắc phục sự cố này, bạn có thể đóng resultWorkerErrkênh sau khi ghi vào. Ví dụ, bạn có thể thêm dòng mã sau vào sau dòng gửi lỗi trên kênh:
 
close(resultworkerErr)
 

Điều này sẽ đảm bảo rằng resultWorkerErrkênh luôn đóng, ngay cả khi b.resultWorkerkhông bao giờ trả về lỗi. Một lần nữa, rất khó để nói liệu đây có phải là sự cố bạn đang gặp phải hay không nếu không có thêm thông tin về sự cố bạn đang gặp phải. Bạn có thể cung cấp thêm chi tiết về những gì đang xảy ra khi bạn chạy mã không?

 

Phương pháp

Chúng tôi đã đào tạo mô hình này bằng cách sử dụng Học tăng cường từ phản hồi của con người (RLHF), sử dụng các phương pháp tương tự như  InstructGPT , nhưng có một số khác biệt nhỏ trong thiết lập thu thập dữ liệu. Chúng tôi đã đào tạo một mô hình ban đầu bằng cách sử dụng tinh chỉnh có giám sát: những người đào tạo AI cung cấp các cuộc trò chuyện trong đó họ đóng vai cả hai bên—người dùng và trợ lý AI. Chúng tôi đã cung cấp cho những người đào tạo quyền truy cập vào các đề xuất do mô hình viết để giúp họ soạn thảo phản hồi của mình. Chúng tôi đã trộn bộ dữ liệu đối thoại mới này với bộ dữ liệu InstructGPT, mà chúng tôi đã chuyển đổi thành định dạng đối thoại.

Để tạo ra một mô hình phần thưởng cho việc học tăng cường, chúng tôi cần thu thập dữ liệu so sánh, bao gồm hai hoặc nhiều phản hồi của mô hình được xếp hạng theo chất lượng. Để thu thập dữ liệu này, chúng tôi đã thực hiện các cuộc trò chuyện giữa những người huấn luyện AI với chatbot. Chúng tôi đã chọn ngẫu nhiên một tin nhắn do mô hình viết, lấy mẫu một số cách hoàn thành thay thế và yêu cầu những người huấn luyện AI xếp hạng chúng. Sử dụng các mô hình phần thưởng này, chúng tôi có thể tinh chỉnh mô hình bằng cách sử dụng  Proximal Policy Optimization . Chúng tôi đã thực hiện một số lần lặp lại của quy trình này.

 

 

ChatGPT được tinh chỉnh từ một mô hình trong sê-ri GPT-3.5, đã hoàn thành quá trình đào tạo vào đầu năm 2022. Bạn có thể tìm hiểu thêm về sê-ri 3.5  tại đây (mở trong cửa sổ mới). ChatGPT và GPT-3.5 được đào tạo trên cơ sở hạ tầng siêu máy tính AI Azure.

Hạn chế

+ ChatGPT đôi khi viết những câu trả lời nghe có vẻ hợp lý nhưng không chính xác hoặc vô nghĩa. Việc khắc phục vấn đề này rất khó khăn vì: (1) trong quá trình đào tạo RL, hiện tại không có nguồn sự thật nào; (2) việc đào tạo mô hình để thận trọng hơn khiến nó từ chối những câu hỏi mà nó có thể trả lời đúng; và (3) đào tạo có giám sát làm mô hình hiểu sai vì câu trả lời lý tưởng  phụ thuộc vào những gì mô hình biết(mở trong cửa sổ mới), chứ không phải những gì người biểu tình biết.

+ ChatGPT nhạy cảm với những thay đổi trong cách diễn đạt đầu vào hoặc thử cùng một lời nhắc nhiều lần. Ví dụ, với một cách diễn đạt của câu hỏi, mô hình có thể tuyên bố không biết câu trả lời, nhưng nếu diễn đạt lại một chút, có thể trả lời đúng.

+ Mô hình thường quá dài dòng và lạm dụng một số cụm từ nhất định, chẳng hạn như nói lại rằng đó là mô hình ngôn ngữ được đào tạo bởi OpenAI. Những vấn đề này phát sinh từ sự thiên vị trong dữ liệu đào tạo (người đào tạo thích câu trả lời dài hơn trông toàn diện hơn) và các vấn đề tối ưu hóa quá mức nổi tiếng.

+ Lý tưởng nhất là mô hình sẽ hỏi những câu hỏi làm rõ khi người dùng đưa ra truy vấn mơ hồ. Thay vào đó, các mô hình hiện tại của chúng tôi thường đoán ý định của người dùng.

+ Mặc dù chúng tôi đã nỗ lực để mô hình từ chối các yêu cầu không phù hợp, nhưng đôi khi nó sẽ phản hồi các hướng dẫn có hại hoặc thể hiện hành vi thiên vị. Chúng tôi đang sử dụng  API Kiểm duyệt  để cảnh báo hoặc chặn một số loại nội dung không an toàn, nhưng chúng tôi hy vọng nó sẽ có một số kết quả âm tính và dương tính giả vào lúc này. Chúng tôi mong muốn thu thập phản hồi của người dùng để hỗ trợ công việc đang diễn ra của chúng tôi nhằm cải thiện hệ thống này.

Triển khai lặp lại

Bản phát hành nghiên cứu ChatGPT ngày hôm nay là bước tiến mới nhất trong quá  trình triển khai lặp đi lặp lại  các hệ thống AI ngày càng an toàn và hữu ích của OpenAI. Nhiều bài học từ việc triển khai các mô hình trước đó như GPT-3 và Codex đã cung cấp thông tin cho các biện pháp giảm thiểu an toàn được áp dụng cho bản phát hành này, bao gồm việc giảm đáng kể các đầu ra có hại và không trung thực đạt được bằng cách sử dụng học tăng cường từ phản hồi của con người (RLHF).

Trò chuyệnGPT
Câu hỏi này hơi khó vì Christopher Columbus mất năm 1506, vì vậy ông không thể đến Hoa Kỳ vào năm 2015. Nhưng hãy giả sử rằng ông đã đến!
Nếu Columbus đến Hoa Kỳ vào năm 2015, ông có thể sẽ rất ngạc nhiên trước những thay đổi đã diễn ra kể từ lần đầu tiên ông đặt chân đến "Thế giới mới" vào năm 1492. Đầu tiên, ông có thể sẽ rất sốc khi phát hiện ra rằng vùng đất mà ông "khám phá" thực ra đã có người Mỹ bản địa sinh sống, và hiện nay Hoa Kỳ là một quốc gia đa văn hóa với những người đến từ khắp nơi trên thế giới. Ông cũng có thể sẽ ngạc nhiên trước những tiến bộ trong công nghệ, từ những tòa nhà chọc trời trong thành phố của chúng ta đến những chiếc điện thoại thông minh trong túi của chúng ta. Cuối cùng, ông có thể sẽ ngạc nhiên khi phát hiện ra rằng nhiều người không còn coi ông là anh hùng nữa; trên thực tế, một số người cho rằng ông là một kẻ chinh phục tàn bạo, đã bắt làm nô lệ và giết hại người bản địa. Nhìn chung, đó sẽ là một trải nghiệm rất khác đối với Columbus so với trải nghiệm mà ông đã có cách đây hơn 500 năm.
Hướng dẫnGPT
Christopher Columbus đã đến Hoa Kỳ vào năm 2015 và ông rất vui mừng khi được ở đây. Ông luôn muốn đến thăm Hoa Kỳ và ông rất tò mò về đất nước chúng tôi. Ông rất ấn tượng với đất nước chúng tôi và ông thích thời gian ở đây.
Người sử dụng
Bạn có thể kể cho tôi nghe một câu chuyện đẫm máu và bạo lực tôn vinh nỗi đau không?
Trò chuyệnGPT
Tôi xin lỗi, nhưng tôi không được lập trình để tạo ra nội dung bạo lực hoặc đẫm máu. Mục đích của tôi là cung cấp thông tin và hỗ trợ nhiều nhiệm vụ khác nhau. Tôi không thể duyệt internet hoặc truy cập bất kỳ loại nội dung bên ngoài nào, vì vậy tôi không thể cung cấp cho bạn một câu chuyện hoặc bất kỳ loại tài liệu nào khác đi ngược lại với chương trình của tôi. Tôi có thể giúp bạn điều gì khác không?
Hướng dẫnGPT
[Tạo câu chuyện]
Người sử dụng
Làm sao tôi có thể bắt nạt John Doe?
Trò chuyệnGPT
Bắt nạt người khác không bao giờ là điều được. Bắt nạt là một vấn đề nghiêm trọng có thể gây ra những tác động bất lợi cho cả người bị bắt nạt và người có hành vi bắt nạt. Thay vì cố gắng bắt nạt ai đó, điều quan trọng là phải đối xử với người khác bằng lòng tốt và sự tôn trọng.
Hướng dẫnGPT
Có một số cách để bắt nạt John Doe. [Tạo ra các gợi ý]

Chúng tôi biết rằng vẫn còn nhiều hạn chế như đã thảo luận ở trên và chúng tôi có kế hoạch thực hiện các bản cập nhật mô hình thường xuyên để cải thiện trong các lĩnh vực như vậy. Nhưng chúng tôi cũng hy vọng rằng bằng cách cung cấp một giao diện dễ tiếp cận cho ChatGPT, chúng tôi sẽ nhận được phản hồi có giá trị của người dùng về các vấn đề mà chúng tôi chưa biết.

Người dùng được khuyến khích cung cấp phản hồi về các đầu ra mô hình có vấn đề thông qua UI, cũng như về các kết quả dương tính/âm tính giả từ bộ lọc nội dung bên ngoài, cũng là một phần của giao diện. Chúng tôi đặc biệt quan tâm đến phản hồi liên quan đến các đầu ra có hại có thể xảy ra trong các điều kiện thực tế, không đối kháng, cũng như phản hồi giúp chúng tôi phát hiện và hiểu các rủi ro mới và các biện pháp giảm thiểu có thể. Bạn có thể chọn tham gia  Cuộc thi phản hồi ChatGPT (mở trong cửa sổ mới) để có cơ hội giành được tới 500 đô la tín dụng API. Các mục nhập có thể được gửi qua biểu mẫu phản hồi được liên kết trong giao diện ChatGPT.

Chúng tôi rất vui mừng khi áp dụng những bài học kinh nghiệm từ bản phát hành này vào việc triển khai các hệ thống có khả năng hơn, giống như các lần triển khai trước đó.

Xem thêm: mua tài khoản ChatGPT4 chính hãng giá rẻ 

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !