.png)
Chúng tôi đang mở mã nguồn OpenAI Baselines, nỗ lực nội bộ của chúng tôi nhằm tái tạo các thuật toán học tăng cường với hiệu suất ngang bằng với kết quả đã công bố. Chúng tôi sẽ phát hành các thuật toán trong những tháng tới; bản phát hành hôm nay bao gồm DQN và ba biến thể của nó.
Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ
Kết quả học tăng cường rất khó để tái tạo: hiệu suất rất nhiễu, thuật toán có nhiều bộ phận chuyển động cho phép có lỗi tinh vi và nhiều bài báo không báo cáo tất cả các thủ thuật cần thiết. Bằng cách phát hành các triển khai tốt đã biết (và các phương pháp hay nhất để tạo ra chúng), chúng tôi muốn đảm bảo rằng những tiến bộ RL rõ ràng không bao giờ là do so sánh với các phiên bản lỗi hoặc chưa được điều chỉnh của các thuật toán hiện có.
Bài đăng này chứa một số phương pháp hay nhất mà chúng tôi sử dụng để triển khai thuật toán RL chính xác, cũng như thông tin chi tiết về bản phát hành đầu tiên của chúng tôi: DQN và ba biến thể của nó, các thuật toán do DeepMind phát triển.
Thực hành tốt nhất
So sánh với đường cơ sở ngẫu nhiên: trong video bên dưới, một tác nhân đang thực hiện các hành động ngẫu nhiên trong trò chơi HERO Nếu bạn thấy hành vi này trong giai đoạn đầu của quá trình đào tạo, bạn sẽ rất dễ tự lừa mình rằng tác nhân đang học. Vì vậy, bạn nên luôn xác minh tác nhân của mình vượt trội hơn một tác nhân ngẫu nhiên.
.png)
Hãy cảnh giác với các lỗi không phá vỡ : khi chúng tôi xem qua một mẫu gồm mười thuật toán học tăng cường phổ biến được triển khai lại, chúng tôi nhận thấy rằng sáu lỗi có lỗi tinh vi do một thành viên cộng đồng tìm thấy và được tác giả xác nhận. Những lỗi này bao gồm các lỗi nhẹ bỏ qua các gradient trong một số ví dụ hoặc thực hiện tích chập nhân quả không đúng cách đối với những người nghiêm túc đã báo cáo điểm cao hơn kết quả thực tế.
Hãy nhìn thế giới như tác nhân của bạn: giống như hầu hết các phương pháp học sâu, đối với DQN, chúng tôi có xu hướng chuyển đổi hình ảnh môi trường của mình sang thang độ xám để giảm bớt việc tính toán cần thiết trong quá trình đào tạo. Điều này có thể tạo ra lỗi riêng: khi chúng tôi chạy thuật toán DQN trên Seaquest, chúng tôi nhận thấy rằng việc triển khai của mình hoạt động kém. Khi chúng tôi kiểm tra môi trường, chúng tôi phát hiện ra rằng điều này là do hình ảnh được xử lý hậu kỳ của chúng tôi không chứa cá, như hình ảnh này cho thấy.
Khi chuyển đổi hình ảnh màn hình thành thang độ xám, chúng tôi đã hiệu chỉnh sai hệ số của mình cho các giá trị màu xanh lá cây, dẫn đến việc con cá biến mất. Sau khi nhận thấy lỗi, chúng tôi đã điều chỉnh các giá trị màu và thuật toán của chúng tôi có thể nhìn thấy con cá một lần nữa.
Để gỡ lỗi các vấn đề như thế này trong tương lai, Gym hiện có một vở kịch chức năng này cho phép nhà nghiên cứu dễ dàng nhìn thấy những quan sát giống như tác nhân AI.
Sửa lỗi, sau đó là siêu tham số : Sau khi gỡ lỗi, chúng tôi bắt đầu hiệu chỉnh siêu tham số của mình. Cuối cùng, chúng tôi thấy rằng việc thiết lập lịch trình ủ cho epsilon, một siêu tham số kiểm soát tốc độ khám phá, có tác động rất lớn đến hiệu suất. Việc triển khai cuối cùng của chúng tôi giảm epsilon xuống 0,1 trong một triệu bước đầu tiên và sau đó xuống 0,01 trong 24 triệu bước tiếp theo. Nếu triển khai của chúng tôi chứa lỗi, thì có khả năng chúng tôi sẽ đưa ra các thiết lập siêu tham số khác nhau để cố gắng xử lý các lỗi mà chúng tôi chưa chẩn đoán được.
Kiểm tra lại cách diễn giải của bạn về các bài báo: Trong DQN Nature bài báo các tác giả viết: “Chúng tôi cũng thấy hữu ích khi cắt thuật ngữ lỗi từ bản cập nhật [...] thành giữa -1 và 1.”. Có hai cách để diễn giải tuyên bố này — cắt mục tiêu hoặc cắt thuật ngữ nhân khi tính toán độ dốc. Cách đầu tiên có vẻ tự nhiên hơn, nhưng nó khiến độ dốc bằng không trên các chuyển đổi có lỗi cao, dẫn đến hiệu suất không tối ưu, như được tìm thấy trong một triển khai DQN. Câu sau là đúng và có cách giải thích toán học đơn giản — Huber Loss. Bạn có thể phát hiện ra những lỗi như thế này bằng cách kiểm tra xem các gradient có xuất hiện như bạn mong đợi hay không — điều này có thể dễ dàng thực hiện trong TensorFlow bằng cách sử dụng compute_gradients.
Phần lớn các lỗi trong bài đăng này được phát hiện bằng cách xem lại mã nhiều lần và suy nghĩ về những gì có thể xảy ra sai sót với từng dòng. Mỗi lỗi có vẻ rõ ràng khi nhìn lại, nhưng ngay cả các nhà nghiên cứu giàu kinh nghiệm cũng có xu hướng đánh giá thấp số lần kiểm tra mã cần thiết để tìm ra tất cả các lỗi trong một lần triển khai.
Học sâu Q
+ ĐQN:Một thuật toán học tăng cường kết hợp Q-Learning với mạng nơ-ron sâu để cho phép RL hoạt động trong các môi trường phức tạp, nhiều chiều, như trò chơi điện tử hoặc rô-bốt.
+ Học tập Double Q: Sửa lỗi thuật toán DQN đôi khi ước tính quá cao các giá trị gắn với các hành động cụ thể.
+ Phát lại được ưu tiên(mở trong cửa sổ mới):Mở rộng chức năng phát lại trải nghiệm của DQN bằng cách học cách phát lại những ký ức trong đó phần thưởng thực sự khác biệt đáng kể so với phần thưởng mong đợi, cho phép tác nhân tự điều chỉnh để phản ứng với việc phát triển các giả định không chính xác.
+ Đấu tay đôi DQN:Chia mạng nơ-ron thành hai phần — một phần học cách cung cấp ước tính giá trị tại mỗi bước thời gian và phần còn lại tính toán các lợi thế tiềm năng của mỗi hành động và cả hai được kết hợp để tạo thành một hàm Q lợi thế hành động duy nhất.
Để bắt đầu, hãy chạy lệnh sau:
123451pip install baselines2# Train model and save the results to cartpole_model.pkl3python -m baselines.deepq.experiments.train_cartpole4# Load the model saved in cartpole_model.pkl and visualize the learned policy5python -m baselines.deepq.experiments.enjoy_cartpoleChúng tôi cũng cung cấp các đại lý được đào tạo, bạn có thể có được bằng cách chạy:
121python -m baselines.deepq.experiments.atari.download_model --blob model-atari-prior-duel-breakout-1 --model-dir /tmp/models2python -m baselines.deepq.experiments.atari.enjoy --model-dir /tmp/models/model-atari-prior-duel-breakout-1 --env Breakout --duelingTiêu chuẩn
.png)
Chúng tôi đã bao gồm một sổ tay iPython hiển thị hiệu suất triển khai DQN của chúng tôi trên các trò chơi Atari. Bạn có thể so sánh hiệu suất của các thuật toán khác nhau của chúng tôi như Dueling Double Q learning với Prioritized Replay (màu vàng), Double Q learning với Prioritized Replay (màu xanh lam), Dueling Double Q learning (màu xanh lá cây) và Double Q learning (màu đỏ).
AI là một khoa học thực nghiệm, trong đó khả năng thực hiện nhiều thí nghiệm hơn có mối tương quan trực tiếp với tiến trình. Với Baselines, các nhà nghiên cứu có thể dành ít thời gian hơn để triển khai các thuật toán có sẵn và nhiều thời gian hơn để thiết kế các thuật toán mới. Nếu bạn muốn giúp chúng tôi tinh chỉnh, mở rộng và phát triển các thuật toán AI, hãy tham gia cùng chúng tôi tại Vua Quảng Cáo.
- Tài khoản ChatGPT 4 TẠI ĐÂY

Cách đổi Mật khẩu Chat GPT - Hướng dẫn đổi Pass Chat GPT 100% Thành công
Hướng dẫn Cách đăng nhập Chat GPT Nhanh nhất | Có hỗ trợ Miễn phí qua Teamview-Ultraview
Chat GPT Plus là gì? So sánh Chat GPT Plus với Chat GPT Miễn phí
Chat GPT bị giới hạn giải thích vì sao và cách khắc phục
Chat GPT là gì ? Cách đăng Ký Chat GPT Miễn Phí tại Việt Nam