Nhà phê bình diễn viên bất đối xứng cho việc học robot dựa trên hình ảnh

Tóm tắt

Học tăng cường sâu (RL) đã chứng minh là một kỹ thuật mạnh mẽ trong nhiều lĩnh vực ra quyết định tuần tự. Tuy nhiên, Robot đặt ra nhiều thách thức đối với RL, đáng chú ý nhất là đào tạo trên một hệ thống vật lý có thể tốn kém và nguy hiểm, điều này đã làm dấy lên sự quan tâm đáng kể trong việc học các chính sách điều khiển bằng cách sử dụng trình mô phỏng vật lý. Mặc dù một số công trình gần đây đã cho thấy kết quả đầy hứa hẹn trong việc chuyển các chính sách được đào tạo trong mô phỏng sang thế giới thực, nhưng chúng thường không tận dụng hết lợi thế khi làm việc với trình mô phỏng. Trong công trình này, chúng tôi khai thác khả năng quan sát trạng thái đầy đủ trong trình mô phỏng để đào tạo các chính sách tốt hơn, chỉ lấy các quan sát một phần (hình ảnh RGBD) làm đầu vào. Chúng tôi thực hiện điều này bằng cách sử dụng thuật toán đào tạo diễn viên-nhà phê bình trong đó nhà phê bình được đào tạo trên các trạng thái đầy đủ trong khi diễn viên (hoặc chính sách) nhận được hình ảnh được kết xuất làm đầu vào. Chúng tôi chứng minh bằng thực nghiệm trên một loạt các tác vụ được mô phỏng rằng việc sử dụng các đầu vào không đối xứng này cải thiện đáng kể hiệu suất. Cuối cùng, chúng tôi kết hợp phương pháp này với ngẫu nhiên hóa miền và trình bày các thí nghiệm robot thực tế cho một số tác vụ như nhặt, đẩy và di chuyển khối. Chúng tôi thực hiện mô phỏng này để chuyển giao thế giới thực mà không cần đào tạo trên bất kỳ dữ liệu thế giới thực nào.

Xem thêm: mua tài khoản ChatGPT 4 chính hãng giá rẻ với nhiều ưu đãi hấp dẫn trong ngày hôm nay