zalo
Chat ngay

RL²: Học tăng cường nhanh thông qua học tăng cường chậm

Tóm tắt

Xem thêm: tài khoản ChatGPT 4 phục vụ mọi người trong từ đời sống đến công việc tại đây!

Học tăng cường sâu (deep RL) đã thành công trong việc tự động học các hành vi phức tạp; tuy nhiên, quá trình học đòi hỏi một số lượng lớn các lần thử. Ngược lại, động vật có thể học các nhiệm vụ mới chỉ trong một vài lần thử, hưởng lợi từ kiến ​​thức trước đó của chúng về thế giới. Bài báo này tìm cách thu hẹp khoảng cách này. Thay vì thiết kế một thuật toán học tăng cường "nhanh", chúng tôi đề xuất biểu diễn nó như một mạng nơ-ron hồi quy (RNN) và học nó từ dữ liệu. Trong phương pháp chúng tôi đề xuất, RL², thuật toán được mã hóa trong các trọng số của RNN, được học chậm thông qua một thuật toán RL mục đích chung ("chậm"). RNN nhận tất cả thông tin mà một thuật toán RL thông thường sẽ nhận được, bao gồm các quan sát, hành động, phần thưởng và cờ kết thúc; và nó giữ nguyên trạng thái của mình qua các tập trong một Quy trình quyết định Markov (MDP) nhất định. Các lần kích hoạt của RNN lưu trữ trạng thái của thuật toán RL "nhanh" trên MDP hiện tại (trước đây chưa từng thấy). Chúng tôi đánh giá RL² theo phương pháp thực nghiệm trên cả các vấn đề quy mô nhỏ và quy mô lớn. Về mặt quy mô nhỏ, chúng tôi đào tạo nó để giải quyết các vấn đề multi-arm bandit được tạo ngẫu nhiên và MDP hữu hạn. Sau khi RL² được đào tạo, hiệu suất của nó trên các MDP mới gần với các thuật toán do con người thiết kế với các đảm bảo tối ưu. Về mặt quy mô lớn, chúng tôi thử nghiệm RL² trên một nhiệm vụ điều hướng dựa trên tầm nhìn và cho thấy nó có thể mở rộng lên các vấn đề có chiều cao.

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !