Tóm tắt
Trong quá trình học tăng cường từ phản hồi của con người, việc tối ưu hóa so với mô hình phần thưởng được đào tạo để dự đoán sở thích của con người là điều thường thấy. Vì mô hình phần thưởng là một proxy không hoàn hảo, nên việc tối ưu hóa giá trị của nó quá nhiều có thể cản trở hiệu suất thực tế, theo định luật Goodhart. Hiệu ứng này đã được quan sát thường xuyên, nhưng không được đo lường cẩn thận do chi phí thu thập dữ liệu sở thích của con người. Trong công trình này, chúng tôi sử dụng một thiết lập tổng hợp trong đó mô hình phần thưởng "chuẩn vàng" cố định đóng vai trò của con người, cung cấp các nhãn được sử dụng để đào tạo mô hình phần thưởng proxy. Chúng tôi nghiên cứu cách điểm số mô hình phần thưởng vàng thay đổi khi chúng tôi tối ưu hóa so với mô hình phần thưởng proxy bằng cách sử dụng học tăng cường hoặc lấy mẫu tốt nhất trong n. Chúng tôi thấy rằng mối quan hệ này tuân theo một dạng hàm khác nhau tùy thuộc vào phương pháp tối ưu hóa và trong cả hai trường hợp, các hệ số của nó đều tỷ lệ thuận với số lượng tham số mô hình phần thưởng. Chúng tôi cũng nghiên cứu tác động của kích thước tập dữ liệu mô hình phần thưởng, số lượng mô hình phần thưởng và tham số chính sách, cũng như hệ số của hình phạt KL được thêm vào phần thưởng trong thiết lập học tăng cường lên mối quan hệ này. Chúng tôi khám phá ý nghĩa của các kết quả thực nghiệm này đối với các cân nhắc lý thuyết trong việc căn chỉnh AI.
Xem thêm: mua tài khoản ChatGPT Plus và tài khoản ChatGPT-4 chính hãng giá rẻ