zalo
Chat ngay

Thu thập phản hồi của con người

 

RL-Teacher là một triển khai mã nguồn mở của giao diện của chúng tôi để đào tạo AI thông qua phản hồi của con người thỉnh thoảng thay vì các hàm phần thưởng được tạo thủ công. Kỹ thuật cơ bản được phát triển như một bước tiến tới các hệ thống AI an toàn, nhưng cũng áp dụng cho các vấn đề học tăng cường với phần thưởng khó xác định.

Bản phát hành bao gồm ba thành phần chính:

+ Một  công cụ dự đoán phần thưởng có thể được cắm vào bất kỳ tác nhân nào và học cách dự đoán các hành động mà tác nhân có thể thực hiện mà con người có thể chấp thuận.

+ Một  đại lý ví dụ học thông qua một hàm được chỉ định bởi một bộ dự đoán phần thưởng. RL-Teacher được tích hợp sẵn ba thuật toán, bao gồm OpenAI Baselines PPO.

+ Một  ứng dụng web mà con người có thể sử dụng để cung cấp phản hồi, cung cấp dữ liệu dùng để đào tạo bộ dự đoán phần thưởng.

Toàn bộ hệ thống bao gồm ít hơn 1.000 dòng mã Python (trừ các tác nhân). Sau khi bạn thiết lập máy chủ web, bạn có thể khởi chạy thử nghiệm bằng cách chạy:

Con người có thể cung cấp phản hồi thông qua giao diện web đơn giản (hiển thị ở trên), có thể chạy cục bộ (không khuyến khích) hoặc trên một máy riêng biệt. Tài liệu đầy đủ có sẵn trên  kho lưu trữ GitHub của dự án. Chúng tôi rất mong chờ xem các nhà nghiên cứu và kỹ sư AI sẽ làm gì với công nghệ này—vui lòng liên hệ  với chúng tôi nếu có bất kỳ kết quả thử nghiệm nào!

Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ 

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !