zalo
Chat ngay

Học cách phân cấp

\

Chúng tôi đã phát triển một thuật toán học tăng cường phân cấp có thể học các hành động cấp cao hữu ích để giải quyết một loạt các nhiệm vụ, cho phép giải quyết nhanh các nhiệm vụ đòi hỏi hàng nghìn bước thời gian. Thuật toán của chúng tôi, khi áp dụng cho một tập hợp các vấn đề điều hướng, sẽ khám phá ra một tập hợp các hành động cấp cao để đi bộ và bò theo các hướng khác nhau, cho phép tác nhân nắm vững các nhiệm vụ điều hướng mới một cách nhanh chóng.

Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ

Con người giải quyết những thách thức phức tạp bằng cách chia nhỏ chúng thành các thành phần nhỏ, dễ quản lý. Nướng bánh kếp bao gồm một loạt các hành động cấp cao, chẳng hạn như đong bột, đánh trứng, đổ hỗn hợp vào chảo, bật bếp, v.v. Con người có thể học các nhiệm vụ mới một cách nhanh chóng bằng cách sắp xếp lại các thành phần đã học này, mặc dù nhiệm vụ có thể mất hàng triệu hành động cấp thấp, tức là các cơn co cơ riêng lẻ.

Mặt khác, các phương pháp học tăng cường ngày nay hoạt động thông qua tìm kiếm vũ phu trên các hành động cấp thấp, đòi hỏi một số lượng lớn các lần thử để giải quyết một nhiệm vụ mới. Các phương pháp này trở nên rất kém hiệu quả khi giải quyết các nhiệm vụ mất nhiều bước thời gian.

Giải pháp của chúng tôi dựa trên ý tưởng về học tăng cường phân cấp, trong đó các tác nhân biểu diễn các hành vi phức tạp dưới dạng một chuỗi ngắn các hành động cấp cao. Điều này cho phép các tác nhân của chúng tôi giải quyết các nhiệm vụ khó hơn nhiều: trong khi giải pháp có thể yêu cầu 2000 hành động cấp thấp, chính sách phân cấp biến điều này thành một chuỗi gồm 10 hành động cấp cao và việc tìm kiếm trên chuỗi 10 bước hiệu quả hơn nhiều so với chuỗi 2000 bước.

Phân cấp chia sẻ siêu học tập

Thuật toán của chúng tôi,  meta-learning shared hierarchies  (MLSH), học một chính sách phân cấp trong đó một chính sách chính chuyển đổi giữa một tập hợp các chính sách phụ. Chính sách chính chọn một hành động sau mỗi N bước thời gian, trong đó chúng ta có thể lấy N=200. Một chính sách phụ được thực hiện trong N bước thời gian cấu thành một hành động cấp cao và đối với các tác vụ điều hướng của chúng tôi, các chính sách phụ tương ứng với việc đi bộ hoặc bò theo các hướng khác nhau.

Trong hầu hết các công trình trước đây, các chính sách phân cấp đã được thiết kế thủ công một cách rõ ràng. Thay vào đó, chúng tôi hướng đến việc tự động khám phá cấu trúc phân cấp này thông qua tương tác với môi trường. Theo quan điểm siêu học, chúng tôi định nghĩa một phân cấp tốt là một phân cấp nhanh chóng đạt được phần thưởng cao khi đào tạo trên các tác vụ chưa từng thấy. Do đó, thuật toán MLSH hướng đến việc học các chính sách phụ cho phép học nhanh trên các tác vụ chưa từng thấy trước đó.

Chúng tôi đào tạo trên một phân phối trên các tác vụ, chia sẻ các chính sách phụ trong khi học một chính sách chính mới trên mỗi tác vụ được lấy mẫu. Bằng cách đào tạo nhiều lần các chính sách chính mới, quy trình này tự động tìm các chính sách phụ phù hợp với động lực học tập của chính sách chính.

Thí nghiệm

Trong môi trường AntMaze của chúng tôi, một robot Mujoco Ant được đặt vào một phân phối gồm 9 mê cung khác nhau và phải điều hướng từ vị trí bắt đầu đến đích. Thuật toán của chúng tôi có thể tìm thấy một tập hợp đa dạng các chính sách phụ có thể được sắp xếp cùng nhau để giải quyết các nhiệm vụ mê cung, chỉ thông qua tương tác với môi trường. Sau đó, tập hợp các chính sách phụ này có thể được sử dụng để làm chủ một nhiệm vụ lớn hơn những nhiệm vụ mà chúng đã được đào tạo.

Mã số

Chúng tôi đang phát hành mã để đào tạo các tác nhân MLSH cũng như môi trường MuJoCo mà chúng tôi xây dựng để đánh giá các thuật toán này.

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !