.png)
Tóm tắt
Thuật toán học tăng cường dựa vào việc thiết kế cẩn thận các phần thưởng môi trường bên ngoài tác nhân. Tuy nhiên, việc chú thích từng môi trường bằng phần thưởng dày đặc được thiết kế thủ công là không thể mở rộng quy mô, thúc đẩy nhu cầu phát triển các hàm phần thưởng bên trong tác nhân. Sự tò mò là một loại hàm phần thưởng bên trong sử dụng lỗi dự đoán làm tín hiệu phần thưởng. Trong bài báo này: Chúng tôi thực hiện nghiên cứu quy mô lớn đầu tiên về việc học hoàn toàn dựa trên sự tò mò, tức là không có bất kỳ phần thưởng bên ngoài nào, trên 54 môi trường chuẩn, bao gồm bộ trò chơi Atari. Kết quả của chúng tôi cho thấy hiệu suất tốt đáng ngạc nhiên và mức độ phù hợp cao giữa mục tiêu tò mò bên trong và phần thưởng bên ngoài được thiết kế thủ công của nhiều môi trường trò chơi. Chúng tôi nghiên cứu tác động của việc sử dụng các không gian tính năng khác nhau để tính toán lỗi dự đoán và chỉ ra rằng các tính năng ngẫu nhiên đủ cho nhiều chuẩn trò chơi RL phổ biến, nhưng các tính năng đã học dường như tổng quát hóa tốt hơn (ví dụ: đối với các cấp độ trò chơi mới trong Super Mario Bros.). Chúng tôi chứng minh những hạn chế của phần thưởng dựa trên dự đoán trong các thiết lập ngẫu nhiên.
Xem thêm: tài khoản ChatGPT Plus và tài khoản ChatGPT 4 chính hãng giá rẻ với nhiều ưu đãi đặc biệt tronh ngày hôm nay!

Cách đổi Mật khẩu Chat GPT - Hướng dẫn đổi Pass Chat GPT 100% Thành công
Hướng dẫn Cách đăng nhập Chat GPT Nhanh nhất | Có hỗ trợ Miễn phí qua Teamview-Ultraview
Chat GPT Plus là gì? So sánh Chat GPT Plus với Chat GPT Miễn phí
Chat GPT bị giới hạn giải thích vì sao và cách khắc phục
Chat GPT là gì ? Cách đăng Ký Chat GPT Miễn Phí tại Việt Nam