zalo
Chat ngay

Tìm lỗi của GPT-4 với GPT-4

CriticGPT, một mô hình dựa trên GPT-4, viết các bài phê bình về phản hồi ChatGPT để giúp người huấn luyện phát hiện ra lỗi trong RLHF

Chúng tôi đã đào tạo một mô hình, dựa trên GPT-4, được gọi là CriticGPT để bắt lỗi trong đầu ra mã của ChatGPT. Chúng tôi thấy rằng khi mọi người nhận được sự trợ giúp từ CriticGPT để xem lại mã ChatGPT, họ sẽ làm tốt hơn những người không được trợ giúp 60% thời gian. Chúng tôi đang bắt đầu công việc tích hợp các mô hình giống CriticGPT vào đường ống gắn nhãn RLHF của mình, cung cấp cho những người đào tạo của chúng tôi sự hỗ trợ AI rõ ràng. Đây là một bước tiến tới khả năng đánh giá đầu ra từ các hệ thống AI tiên tiến mà mọi người có thể khó đánh giá nếu không có các công cụ tốt hơn.

Chuỗi mô hình tài khoản ChatGPT-4, cung cấp năng lượng cho ChatGPT, được sắp xếp để hữu ích và tương tác thông qua “Học tăng cường từ phản hồi của con người” ( RLHF ). Một phần quan trọng của RLHF là thu thập các so sánh trong đó mọi người, được gọi là người đào tạo AI, đánh giá các phản hồi ChatGPT khác nhau với nhau.

Xem thêm: tài khoản ChatGPT Plus chính hãng giá rẻ chỉ với vài bước đơn giản!

Khi chúng ta đạt được những tiến bộ trong lý luận và hành vi mô hình, ChatGPT trở nên chính xác hơn và các lỗi của nó trở nên tinh vi hơn. Điều này có thể khiến các huấn luyện viên AI khó phát hiện ra những điểm không chính xác khi chúng xảy ra, khiến nhiệm vụ so sánh hỗ trợ RLHF trở nên khó khăn hơn nhiều. Đây là một hạn chế cơ bản của RLHF và có thể khiến việc căn chỉnh các mô hình ngày càng khó khăn hơn khi chúng dần trở nên hiểu biết hơn bất kỳ người nào có thể cung cấp phản hồi.

Để giải quyết thách thức này, chúng tôi đã đào tạo CriticGPT viết các bài phê bình nhằm chỉ ra những điểm không chính xác trong câu trả lời của ChatGPT.

 

Các đề xuất của CriticGPT không phải lúc nào cũng đúng, nhưng chúng tôi thấy rằng chúng có thể giúp người hướng dẫn phát hiện ra nhiều vấn đề hơn với các câu trả lời do mô hình viết hơn là khi không có sự trợ giúp của AI. Ngoài ra, khi mọi người sử dụng CriticGPT, AI sẽ tăng cường các kỹ năng của họ, dẫn đến các bài phê bình toàn diện hơn so với khi mọi người làm việc một mình và ít lỗi ảo giác hơn so với khi mô hình làm việc một mình. Trong các thí nghiệm của chúng tôi, một người hướng dẫn ngẫu nhiên thứ hai thích các bài phê bình từ nhóm Human+CriticGPT hơn là từ một người không được hỗ trợ hơn 60% thời gian.

 

Phương pháp

CriticGPT cũng được đào tạo bằng RLHF, tương tự như ChatGPT. Nhưng không giống như ChatGPT, nó thấy một số lượng lớn đầu vào chứa lỗi mà sau đó phải phê bình. Chúng tôi đã yêu cầu những người đào tạo AI chèn thủ công những lỗi này vào mã do ChatGPT viết và sau đó viết phản hồi ví dụ như thể họ đã phát hiện ra lỗi mà họ vừa chèn. Sau đó, cùng một người đó đã so sánh nhiều lời phê bình về mã đã sửa đổi để họ có thể dễ dàng biết khi nào một lời phê bình phát hiện ra lỗi mà họ đã chèn. Trong các thí nghiệm của mình, chúng tôi đã nghiên cứu cả việc CriticGPT có thể phát hiện ra lỗi đã chèn hay không và các lỗi ChatGPT "tự nhiên" mà một người đào tạo trước đó đã phát hiện ra. Chúng tôi thấy rằng các lời phê bình của CriticGPT được các người đào tạo thích hơn các lời phê bình của ChatGPT trong 63% trường hợp về các lỗi tự nhiên, một phần là do lời phê bình mới đưa ra ít "lời chỉ trích" (những lời phàn nàn nhỏ không hữu ích) hơn và ít gây ra ảo giác về các vấn đề hơn.

Chúng tôi cũng thấy rằng chúng tôi có thể tạo ra các lời phê bình dài hơn và toàn diện hơn bằng cách sử dụng tìm kiếm thời gian kiểm tra bổ sung so với mô hình phần thưởng phê bình. Quy trình tìm kiếm này cho phép chúng tôi cân bằng mức độ tích cực tìm kiếm các vấn đề trong mã và định cấu hình sự đánh đổi giữa độ chính xác và khả năng nhớ lại giữa ảo giác và số lượng lỗi được phát hiện. Điều đó có nghĩa là chúng tôi có thể tạo ra các lời phê bình hữu ích nhất có thể cho RLHF. Xem bài báo nghiên cứu của chúng tôi để biết thêm chi tiết.

Hạn chế

+ Chúng tôi đã đào tạo CriticGPT về các câu trả lời ChatGPT khá ngắn. Để giám sát các tác nhân trong tương lai, chúng tôi sẽ cần phát triển các phương pháp có thể giúp người đào tạo hiểu các nhiệm vụ dài và phức tạp.

+ Các người mẫu vẫn bị ảo giác và đôi khi các huấn luyện viên mắc lỗi ghi nhãn sau khi nhìn thấy những ảo giác đó.

+ Đôi khi, lỗi thực tế có thể nằm rải rác ở nhiều phần của câu trả lời. Công việc của chúng tôi tập trung vào các lỗi có thể chỉ ra ở một nơi, nhưng trong tương lai, chúng tôi cũng cần giải quyết các lỗi phân tán.

+ CriticGPT chỉ có thể giúp được một phần: nếu một nhiệm vụ hoặc phản hồi cực kỳ phức tạp thì ngay cả một chuyên gia có sự trợ giúp của mô hình cũng không thể đánh giá chính xác được.

Các bước tiếp theo

Để sắp xếp các hệ thống AI ngày càng phức tạp, chúng ta sẽ cần các công cụ tốt hơn. Trong nghiên cứu của chúng tôi về CriticGPT, chúng tôi thấy rằng việc áp dụng RLHF vào GPT-4 hứa hẹn sẽ giúp con người tạo ra dữ liệu RLHF tốt hơn cho GPT-4. Chúng tôi đang có kế hoạch mở rộng công việc này hơn nữa và đưa vào thực tế.

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !