zalo
Chat ngay

Học siêu việt cho đấu vật

 

Chúng tôi chứng minh rằng đối với nhiệm vụ mô phỏng đấu vật robot, một tác nhân siêu học có thể học cách nhanh chóng đánh bại một tác nhân không có siêu học mạnh hơn, và cũng chứng minh rằng tác nhân siêu học có thể thích ứng với trục trặc vật lý.

Xem thêm: mua tài khoản ChatGTP Plus chính hãng giá rẻ

Chúng tôi đã mở rộng  Meta-Learning không phụ thuộc vào mô hình (MAML) thuật toán bằng cách dựa hàm mục tiêu của nó vào việc tối ưu hóa theo cặp môi trường, thay vì từng môi trường riêng lẻ như trong MAML gốc. MAML khởi tạo các chính sách của các tác nhân của chúng tôi để sau chỉ một số ít lần cập nhật tham số trong quá trình thực thi trên một môi trường (hoặc tác vụ) mới, các tác nhân học cách làm tốt hơn trong môi trường đó. Các bản cập nhật tham số chính sách khi thực thi được thực hiện thông qua các bước tăng dần theo độ dốc trên phần thưởng thu thập được trong một vài tập tương tác ban đầu với môi trường mới. Bằng cách đào tạo theo cặp, chúng tôi có thể tạo ra các chính sách thích ứng nhanh với các môi trường chưa từng thấy trước đây, miễn là môi trường không khác biệt quá nhiều so với các môi trường trước đó.
 
Để kiểm tra phương pháp thích nghi liên tục của mình, chúng tôi đã thiết kế 3 loại tác nhân—Ant (4 chân), Bug (6 chân) và Spider (8 chân)—và thiết lập một trò chơi nhiều vòng, trong đó mỗi tác nhân chơi nhiều trận với cùng một đối thủ và điều chỉnh các tham số chính sách của mình giữa các vòng để chống lại chính sách của đối thủ tốt hơn. Trong các cuộc thử nghiệm, chúng tôi thấy rằng các tác nhân có thể điều chỉnh chiến thuật của mình là những đối thủ cạnh tranh tốt hơn nhiều so với các tác nhân có chính sách cố định. Sau khi đào tạo hơn một trăm tác nhân, một số trong số đó đã học các chính sách cố định và những người khác đã học cách thích nghi, chúng tôi đã đánh giá mức độ phù hợp của từng tác nhân.
 
Học tập khi đang di chuyển cũng có thể giúp các tác nhân xử lý những thay đổi bất thường trong cơ thể của chính họ, như thích nghi với một số chi của chính họ mất chức năng theo thời gian. Điều này cho thấy chúng ta có thể sử dụng các kỹ thuật như thế này để phát triển các tác nhân có thể xử lý cả những thay đổi trong môi trường bên ngoài của họ và cả những thay đổi trong cơ thể hoặc trạng thái bên trong của chính họ.
 
Chúng tôi đang khám phá siêu học tập như một phần công việc của chúng tôi về nghiên cứu đa tác nhân quy mô lớn. Ngoài ra, chúng tôi đang  phát hành các môi trường MuJoCo và các chính sách được đào tạo được sử dụng trong công trình này để những người khác có thể thử nghiệm các hệ thống này.
 
Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !