Tóm tắt
Mô phỏng là môi trường hấp dẫn để đào tạo các tác nhân vì chúng cung cấp nguồn dữ liệu dồi dào và làm giảm bớt một số lo ngại về an toàn trong quá trình đào tạo. Nhưng hành vi do các tác nhân phát triển trong mô phỏng thường cụ thể theo đặc điểm của trình mô phỏng. Do lỗi mô hình, các chiến lược thành công trong mô phỏng có thể không chuyển sang các đối tác trong thế giới thực của chúng. Trong bài báo này, chúng tôi trình bày một phương pháp đơn giản để thu hẹp "khoảng cách thực tế" này. Bằng cách ngẫu nhiên hóa động lực của trình mô phỏng trong quá trình đào tạo, chúng tôi có thể phát triển các chính sách có khả năng thích ứng với các động lực rất khác nhau, bao gồm cả những động lực khác biệt đáng kể so với động lực mà các chính sách được đào tạo. Khả năng thích ứng này cho phép các chính sách tổng quát hóa thành động lực của thế giới thực mà không cần bất kỳ đào tạo nào về hệ thống vật lý. Phương pháp tiếp cận của chúng tôi được chứng minh trên một nhiệm vụ đẩy vật thể bằng cách sử dụng một cánh tay rô bốt. Mặc dù được đào tạo hoàn toàn trong mô phỏng, các chính sách của chúng tôi có thể duy trì mức hiệu suất tương tự khi triển khai trên một rô bốt thực, di chuyển một vật thể đến vị trí mong muốn một cách đáng tin cậy từ các cấu hình ban đầu ngẫu nhiên. Chúng tôi khám phá tác động của nhiều quyết định thiết kế khác nhau và chứng minh rằng các chính sách kết quả là mạnh mẽ đối với lỗi hiệu chuẩn đáng kể.
Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ
.png)

Cách đổi Mật khẩu Chat GPT - Hướng dẫn đổi Pass Chat GPT 100% Thành công
Hướng dẫn Cách đăng nhập Chat GPT Nhanh nhất | Có hỗ trợ Miễn phí qua Teamview-Ultraview
Chat GPT Plus là gì? So sánh Chat GPT Plus với Chat GPT Miễn phí
Chat GPT bị giới hạn giải thích vì sao và cách khắc phục
Chat GPT là gì ? Cách đăng Ký Chat GPT Miễn Phí tại Việt Nam