zalo
Chat ngay

Khám phá UCB thông qua Q-ensembles

Tóm tắt

Chúng tôi trình bày cách thức một tập hợp các hàm Q* có thể được tận dụng để khám phá hiệu quả hơn trong học tăng cường sâu. Chúng tôi xây dựng trên các thuật toán đã được thiết lập tốt từ bối cảnh bandit và điều chỉnh chúng cho bối cảnh Q-learning. Chúng tôi đề xuất một chiến lược khám phá dựa trên ranh giới tin cậy trên (UCB). Các thí nghiệm của chúng tôi cho thấy những cải thiện đáng kể so với chuẩn Atari.

Xem thêm: mua tài khoản ChatGPT 4 chính hãng giá rẻ!

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !