.png)
Tóm tắt
Học tăng cường sâu (RL) đã chứng minh là một kỹ thuật mạnh mẽ trong nhiều lĩnh vực ra quyết định tuần tự. Tuy nhiên, Robot đặt ra nhiều thách thức đối với RL, đáng chú ý nhất là đào tạo trên một hệ thống vật lý có thể tốn kém và nguy hiểm, điều này đã làm dấy lên sự quan tâm đáng kể trong việc học các chính sách điều khiển bằng cách sử dụng trình mô phỏng vật lý. Mặc dù một số công trình gần đây đã cho thấy kết quả đầy hứa hẹn trong việc chuyển các chính sách được đào tạo trong mô phỏng sang thế giới thực, nhưng chúng thường không tận dụng hết lợi thế khi làm việc với trình mô phỏng. Trong công trình này, chúng tôi khai thác khả năng quan sát trạng thái đầy đủ trong trình mô phỏng để đào tạo các chính sách tốt hơn, chỉ lấy các quan sát một phần (hình ảnh RGBD) làm đầu vào. Chúng tôi thực hiện điều này bằng cách sử dụng thuật toán đào tạo diễn viên-nhà phê bình trong đó nhà phê bình được đào tạo trên các trạng thái đầy đủ trong khi diễn viên (hoặc chính sách) nhận được hình ảnh được kết xuất làm đầu vào. Chúng tôi chứng minh bằng thực nghiệm trên một loạt các tác vụ được mô phỏng rằng việc sử dụng các đầu vào không đối xứng này cải thiện đáng kể hiệu suất. Cuối cùng, chúng tôi kết hợp phương pháp này với ngẫu nhiên hóa miền và trình bày các thí nghiệm robot thực tế cho một số tác vụ như nhặt, đẩy và di chuyển khối. Chúng tôi thực hiện mô phỏng này để chuyển giao thế giới thực mà không cần đào tạo trên bất kỳ dữ liệu thế giới thực nào.
Xem thêm: mua tài khoản ChatGPT 4 chính hãng giá rẻ với nhiều ưu đãi hấp dẫn trong ngày hôm nay

Cách đổi Mật khẩu Chat GPT - Hướng dẫn đổi Pass Chat GPT 100% Thành công
Hướng dẫn Cách đăng nhập Chat GPT Nhanh nhất | Có hỗ trợ Miễn phí qua Teamview-Ultraview
Chat GPT Plus là gì? So sánh Chat GPT Plus với Chat GPT Miễn phí
Chat GPT bị giới hạn giải thích vì sao và cách khắc phục
Chat GPT là gì ? Cách đăng Ký Chat GPT Miễn Phí tại Việt Nam