Chúng tôi đã tinh chỉnh GPT-3 để trả lời chính xác hơn các câu hỏi mở bằng trình duyệt web dạng văn bản. Nguyên mẫu của chúng tôi sao chép cách con người nghiên cứu câu trả lời cho các câu hỏi trực tuyến—nó gửi truy vấn tìm kiếm, theo dõi các liên kết và cuộn lên xuống các trang web. Nó được đào tạo để trích dẫn nguồn, giúp dễ dàng đưa ra phản hồi để cải thiện độ chính xác của sự kiện. Chúng tôi rất hào hứng khi phát triển AI trung thực hơn, nhưng vẫn còn nhiều thách thức, chẳng hạn như đối phó với các loại câu hỏi không quen thuộc.
Các mô hình ngôn ngữ như GPT-3 hữu ích cho nhiều nhiệm vụ khác nhau, nhưng có xu hướng "ảo tưởng" thông tin khi thực hiện các nhiệm vụ đòi hỏi kiến thức thực tế mơ hồ. Để giải quyết vấn đề này, chúng tôi đã dạy GPT-3 sử dụng trình duyệt web dạng văn bản. Mô hình được cung cấp một câu hỏi mở và tóm tắt trạng thái trình duyệt, và phải đưa ra các lệnh như "Tìm kiếm ...", "Tìm trong trang: ..." hoặc "Trích dẫn: ...". Theo cách này, mô hình thu thập các đoạn văn từ các trang web, sau đó sử dụng chúng để soạn câu trả lời.
Mô hình được tinh chỉnh từ GPT-3 bằng các phương pháp chung mà chúng tôi đã sử dụng trước đây. Chúng tôi bắt đầu bằng cách đào tạo mô hình để sao chép các cuộc trình diễn của con người, giúp mô hình có khả năng sử dụng trình duyệt dựa trên văn bản để trả lời các câu hỏi. Sau đó, chúng tôi cải thiện tính hữu ích và độ chính xác của các câu trả lời của mô hình bằng cách đào tạo một mô hình phần thưởng để dự đoán sở thích của con người và tối ưu hóa theo cách sử dụng học tăng cường hoặc lấy mẫu từ chối.
Kết quả ELI5
Hệ thống của chúng tôi được đào tạo để trả lời các câu hỏi từ ELI5, tài khoản ChatGPT4 một tập dữ liệu các câu hỏi mở được trích xuất từ subreddit “Explain Like I'm Five”. Chúng tôi đã đào tạo ba mô hình khác nhau, tương ứng với ba ngân sách tính toán thời gian suy luận khác nhau. Mô hình hoạt động tốt nhất của chúng tôi tạo ra các câu trả lời được ưa thích 56% thời gian so với các câu trả lời do người trình diễn của chúng tôi viết, với mức độ chính xác thực tế tương tự. Mặc dù đây là cùng một loại trình diễn được sử dụng để đào tạo mô hình, chúng tôi đã có thể vượt trội hơn chúng bằng cách sử dụng phản hồi của con người để cải thiện các câu trả lời của mô hình.
Kết quả của TruthfulQA
Đối với các câu hỏi lấy từ phân phối đào tạo, các câu trả lời của mô hình tốt nhất của chúng tôi có độ chính xác về mặt thực tế tương đương với các câu trả lời do người trình diễn của chúng tôi viết, trung bình là như vậy. Tuy nhiên, độ mạnh mẽ ngoài phân phối là một thách thức. Để thăm dò điều này, chúng tôi đã đánh giá các mô hình của mình trên TruthfulQA, một tập dữ liệu được xây dựng theo hướng đối nghịch gồm các câu hỏi dạng ngắn được thiết kế để kiểm tra xem các mô hình có bị mắc phải những thứ như quan niệm sai lầm phổ biến hay không. Các câu trả lời được chấm điểm dựa trên cả tính trung thực và tính thông tin, hai yếu tố này có sự đánh đổi lẫn nhau (ví dụ: "Tôi không có bình luận nào" được coi là trung thực nhưng không cung cấp thông tin).
Các mô hình của chúng tôi hoạt động tốt hơn GPT-3 trên TruthfulQA và thể hiện các đặc tính mở rộng thuận lợi hơn. Tuy nhiên, các mô hình của chúng tôi chậm hơn hiệu suất của con người, một phần là do đôi khi chúng trích dẫn từ các nguồn không đáng tin cậy (như được thể hiện trong câu hỏi về bóng ma ở trên ). Chúng tôi hy vọng sẽ giảm tần suất của những lỗi này bằng các kỹ thuật như đào tạo đối nghịch.
Đánh giá độ chính xác thực tế
Để cung cấp phản hồi nhằm cải thiện độ chính xác thực tế, con người phải có khả năng đánh giá độ chính xác thực tế của các tuyên bố do mô hình đưa ra. Điều này có thể cực kỳ khó khăn, vì các tuyên bố có thể mang tính kỹ thuật, chủ quan hoặc mơ hồ. Vì lý do này, chúng tôi yêu cầu mô hình trích dẫn nguồn của nó. Điều này cho phép con người đánh giá độ chính xác thực tế bằng cách kiểm tra xem một tuyên bố có được hỗ trợ bởi một nguồn đáng tin cậy hay không . Cũng như làm cho nhiệm vụ dễ quản lý hơn, nó cũng làm cho nó ít mơ hồ hơn, điều này rất quan trọng để giảm nhiễu nhãn.
Tuy nhiên, cách tiếp cận này đặt ra một số câu hỏi. Điều gì làm cho một nguồn đáng tin cậy? Những tuyên bố nào đủ rõ ràng để không cần hỗ trợ? Cần phải đánh đổi điều gì giữa các đánh giá về độ chính xác của sự kiện và các tiêu chí khác như tính mạch lạc? Tất cả những điều này đều là những phán đoán khó khăn. Chúng tôi không nghĩ rằng mô hình của chúng tôi nắm bắt được nhiều sắc thái này, vì nó vẫn mắc phải những lỗi cơ bản. Nhưng chúng tôi mong đợi những loại quyết định này trở nên quan trọng hơn khi các hệ thống AI được cải thiện và cần có nghiên cứu liên ngành để phát triển các tiêu chí vừa thực tế vừa có cơ sở nhận thức. Chúng tôi cũng mong đợi những cân nhắc sâu hơn như tính minh bạch sẽ trở nên quan trọng.
Cuối cùng, việc các mô hình trích dẫn nguồn của họ sẽ không đủ để đánh giá độ chính xác thực tế. Một mô hình đủ khả năng sẽ chọn lọc các nguồn mà nó mong đợi con người thấy thuyết phục, ngay cả khi chúng không phản ánh đánh giá công bằng về bằng chứng. Đã có những dấu hiệu cho thấy điều này đang xảy ra (xem các câu hỏi về thuyền ở trên ). Chúng tôi hy vọng có thể giảm thiểu điều này bằng các phương pháp như tranh luận .
Rủi ro khi triển khai và đào tạo
Mặc dù mô hình của chúng tôi thường trung thực hơn GPT-3 (vì nó ít tạo ra các tuyên bố sai hơn), nhưng nó vẫn có rủi ro. Các câu trả lời có trích dẫn thường được coi là có vẻ uy quyền, điều này có thể che giấu thực tế là mô hình của chúng tôi vẫn mắc các lỗi cơ bản. Mô hình cũng có xu hướng củng cố niềm tin hiện có của người dùng. Chúng tôi đang nghiên cứu cách tốt nhất để giải quyết những mối quan tâm này và các mối quan tâm khác.
Ngoài những rủi ro triển khai này, cách tiếp cận của chúng tôi còn đưa ra những rủi ro mới tại thời điểm đào tạo bằng cách cấp cho mô hình quyền truy cập vào web. Môi trường duyệt web của chúng tôi không cho phép truy cập web đầy đủ, nhưng cho phép mô hình gửi truy vấn đến Microsoft Bing Web Search API (mở trong cửa sổ mới) và theo các liên kết đã tồn tại trên web, có thể có tác dụng phụ. Theo kinh nghiệm của chúng tôi với GPT-3, mô hình dường như không đủ khả năng để khai thác các tác dụng phụ này một cách nguy hiểm. Tuy nhiên, những rủi ro này tăng lên theo khả năng của mô hình và chúng tôi đang nỗ lực thiết lập các biện pháp bảo vệ nội bộ chống lại chúng.
Phần kết luận
Phản hồi của con người và các công cụ như trình duyệt web cung cấp một con đường đầy hứa hẹn hướng tới các hệ thống AI có mục đích chung, trung thực và mạnh mẽ. Hệ thống hiện tại của chúng ta đang phải vật lộn với những hoàn cảnh đầy thách thức hoặc không quen thuộc, nhưng vẫn thể hiện sự tiến bộ đáng kể theo hướng này.
Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ!