zalo
Chat ngay

Giảm phương sai cho chính sách gradient với các đường cơ sở được phân tích theo hành động

Tóm tắt

Các phương pháp gradient chính sách đã đạt được thành công lớn trong học tăng cường sâu nhưng lại gặp phải vấn đề về phương sai cao của ước tính gradient. Vấn đề phương sai cao đặc biệt trầm trọng trong các vấn đề có đường chân trời dài hoặc không gian hành động nhiều chiều. Để giảm thiểu vấn đề này, chúng tôi đưa ra một đường cơ sở phụ thuộc vào hành động không có sai số để giảm phương sai, khai thác hoàn toàn dạng cấu trúc của chính sách ngẫu nhiên và không đưa ra bất kỳ giả định bổ sung nào về MDP. Chúng tôi chứng minh và định lượng lợi ích của đường cơ sở phụ thuộc vào hành động thông qua cả phân tích lý thuyết cũng như kết quả số, bao gồm phân tích về tính tối ưu phụ thuộc vào trạng thái tối ưu. Kết quả là một thuật toán gradient chính sách hiệu quả về mặt tính toán, có thể mở rộng thành các vấn đề kiểm soát nhiều chiều, như được chứng minh bằng tác vụ khớp mục tiêu tổng hợp 2000 chiều. Kết quả thử nghiệm của chúng tôi chỉ ra rằng các đường cơ sở phụ thuộc vào hành động cho phép học nhanh hơn trên các điểm chuẩn học tăng cường tiêu chuẩn và thao tác bằng tay nhiều chiều và các tác vụ tổng hợp. Cuối cùng, chúng tôi chỉ ra rằng ý tưởng chung về việc đưa thông tin bổ sung vào các đường cơ sở để cải thiện việc giảm phương sai có thể được mở rộng thành các tác vụ được quan sát một phần và nhiều tác nhân.

Xem thêm: mua tài khoản ChatGPT Plus và tài khoản ChatGPT-4 chính hãng giá rẻ với nhiều ưu đãi đặc biệt duy nhất ngày hôm nay!

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !