zalo
Chat ngay

Sự tương đương giữa các gradient chính sách và Q-learning mềm

Tóm tắt

Hai trong số những cách tiếp cận hàng đầu cho học tăng cường không mô hình là phương pháp gradient chính sách và phương pháp Q-learning. Phương pháp Q-learning có thể hiệu quả và hiệu suất mẫu khi chúng hoạt động, tuy nhiên, không hiểu rõ lý do tại sao chúng hoạt động, vì theo kinh nghiệm, các giá trị Q mà chúng ước tính rất không chính xác. Một lời giải thích một phần có thể là các phương pháp Q-learning đang bí mật triển khai các bản cập nhật gradient chính sách: chúng tôi chỉ ra rằng có một sự tương đương chính xác giữa phương pháp Q-learning và phương pháp gradient chính sách trong bối cảnh học tăng cường được chuẩn hóa entropy, rằng Q-learning "mềm" (được chuẩn hóa entropy) hoàn toàn tương đương với phương pháp gradient chính sách. Chúng tôi cũng chỉ ra mối liên hệ giữa các phương pháp Q-learning và phương pháp gradient chính sách tự nhiên. Về mặt thực nghiệm, chúng tôi khám phá các phiên bản được chuẩn hóa entropy của Q-learning và gradient chính sách, và chúng tôi thấy chúng hoạt động tốt như (hoặc tốt hơn một chút) các biến thể tiêu chuẩn trên chuẩn mực Atari. Chúng tôi cũng chứng minh rằng sự tương đương vẫn đúng trong các bối cảnh thực tế bằng cách xây dựng phương pháp học Q phù hợp chặt chẽ với động lực học của A3C mà không sử dụng mạng mục tiêu hoặc lịch trình khám phá tham lam ϵ.

Xem thêm: tài khoản ChatGPT 4 chính hãng giá rẻ với nhiều ưu đãi đặc biệt duy nhất trong ngày hôm nay!

 

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !