zalo
Chat ngay

Trải nghiệm nhìn lại

 

Tóm tắt

Xử lý phần thưởng thưa thớt là một trong những thách thức lớn nhất trong Học tăng cường (RL). Chúng tôi trình bày một kỹ thuật mới gọi là Phát lại trải nghiệm nhìn lại cho phép học hiệu quả mẫu từ phần thưởng thưa thớt và nhị phân và do đó tránh nhu cầu về kỹ thuật phần thưởng phức tạp. Nó có thể được kết hợp với thuật toán RL tùy ý ngoài chính sách và có thể được coi là một dạng chương trình giảng dạy ngầm.

Chúng tôi trình bày cách tiếp cận của mình về nhiệm vụ thao tác các vật thể bằng cánh tay rô-bốt. Cụ thể, chúng tôi tiến hành thí nghiệm trên ba nhiệm vụ khác nhau: đẩy, trượt và nhặt và đặt, trong mỗi trường hợp chỉ sử dụng phần thưởng nhị phân để chỉ ra nhiệm vụ đã hoàn thành hay chưa. Các nghiên cứu cắt bỏ của chúng tôi cho thấy Hindsight Experience Replay là một thành phần quan trọng giúp việc đào tạo trở nên khả thi trong những môi trường đầy thách thức này. Chúng tôi chứng minh rằng các chính sách của chúng tôi được đào tạo trên mô phỏng vật lý có thể được triển khai trên một rô-bốt vật lý và hoàn thành nhiệm vụ một cách thành công.

Xem thêm: mua tài khoản ChatGPT Plus và tài khoản ChatGPT-4 chính hãng giá rẻ với nhiều ưu đãi đặc biệt hấp dẫn trong ngày hôm nay!

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !