zalo
Chat ngay

#Khám phá: Một nghiên cứu về khám phá dựa trên số lượng để học tăng cường sâu

Tóm tắt

Các thuật toán khám phá dựa trên số đếm được biết là hoạt động gần như tối ưu khi được sử dụng kết hợp với các phương pháp học tăng cường dạng bảng (RL) để giải các quy trình quyết định Markov rời rạc nhỏ (MDP). Người ta thường cho rằng các phương pháp dựa trên số đếm không thể áp dụng trong các không gian trạng thái nhiều chiều, vì hầu hết các trạng thái sẽ chỉ xảy ra một lần. Các chiến lược khám phá RL sâu gần đây có thể xử lý các không gian trạng thái liên tục nhiều chiều thông qua các phương pháp tìm kiếm phức tạp, thường dựa vào sự lạc quan khi đối mặt với sự không chắc chắn hoặc động lực nội tại. Trong tác phẩm này, chúng tôi mô tả một phát hiện đáng ngạc nhiên: một khái quát đơn giản của phương pháp tiếp cận dựa trên số đếm cổ điển có thể đạt được hiệu suất gần như tiên tiến nhất trên nhiều chuẩn mực RL sâu nhiều chiều và/hoặc liên tục. Các trạng thái được ánh xạ thành mã băm, cho phép đếm số lần xuất hiện của chúng bằng bảng băm. Sau đó, các số đếm này được sử dụng để tính phần thưởng theo lý thuyết khám phá dựa trên số đếm cổ điển. Chúng tôi thấy rằng các hàm băm đơn giản có thể đạt được kết quả tốt đáng ngạc nhiên đối với nhiều nhiệm vụ đầy thử thách. Hơn nữa, chúng tôi chỉ ra rằng mã băm đã học phụ thuộc vào miền có thể cải thiện thêm những kết quả này. Phân tích chi tiết cho thấy các khía cạnh quan trọng của một hàm băm tốt:

1) có độ chi tiết phù hợp và

2) mã hóa thông tin có liên quan đến việc giải quyết MDP. Chiến lược khám phá này đạt được hiệu suất gần như tiên tiến nhất trên cả các tác vụ điều khiển liên tục và trò chơi Atari 2600, do đó cung cấp một đường cơ sở đơn giản nhưng mạnh mẽ để giải quyết các MDP đòi hỏi phải khám phá đáng kể.

Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !