.png)
Chúng tôi đang phát hành hai triển khai OpenAI Baselines mới: ACKTR và A2C. A2C là một biến thể đồng bộ, xác định của Asynchronous Advantage Actor Critic (A3C) mà chúng tôi thấy có hiệu suất ngang nhau. ACKTR là thuật toán học tăng cường hiệu quả về mẫu hơn TRPO và A2C, và chỉ yêu cầu tính toán nhiều hơn một chút so với A2C cho mỗi lần cập nhật.
- Tài khoản ChatGPT 4 chỉ với vài bước đơn giản
ACKTR (phát âm là “actor”)—Actor Critic sử dụng Trust Region theo hệ số Kronecker—được phát triển bởi các nhà nghiên cứu tại Đại học Toronto và Đại học New York, và chúng tôi tại OpenAI đã hợp tác với họ để phát hành một triển khai Baselines. Các tác giả sử dụng ACKTR để tìm hiểu các chính sách điều khiển cho robot mô phỏng (với pixel làm đầu vào và không gian hành động liên tục) và tác nhân Atari (với pixel làm đầu vào và không gian hành động rời rạc).
ACKTR kết hợp ba kỹ thuật riêng biệt: phương pháp diễn viên-phê bình, tối ưu hóa vùng tin cậymđể cải thiện nhất quán hơn và phân phối Kronecker phân tích thành nhân tử để cải thiện hiệu quả mẫu và khả năng mở rộng.
Mẫu và hiệu quả tính toán
Đối với các thuật toán học máy, có hai chi phí quan trọng cần xem xét: độ phức tạp của mẫu và độ phức tạp tính toán. Độ phức tạp của mẫu đề cập đến số bước thời gian tương tác giữa tác nhân và môi trường của nó, và độ phức tạp tính toán đề cập đến số lượng các phép toán số phải được thực hiện.
ACKTR có độ phức tạp mẫu tốt hơn các phương pháp bậc nhất như A2C vì nó thực hiện một bước theo hướng gradient tự nhiên , thay vì theo hướng gradient (hoặc phiên bản được chia tỷ lệ lại như trong ADAM). Gradient tự nhiên cung cấp cho chúng ta hướng trong không gian tham số đạt được sự cải thiện lớn nhất (tức thời) trong mục tiêu trên mỗi đơn vị thay đổi trong phân phối đầu ra của mạng, được đo bằng cách sử dụng KL-divergence. Bằng cách giới hạn KL-divergence, chúng tôi đảm bảo rằng chính sách mới không hoạt động khác biệt hoàn toàn so với chính sách cũ, điều này có thể gây ra sự sụp đổ về hiệu suất.
Về độ phức tạp tính toán, bản cập nhật KFAC được ACKTR sử dụng chỉ đắt hơn 10–25% cho mỗi bước cập nhật so với bản cập nhật gradient tiêu chuẩn. Điều này trái ngược với các phương pháp như TRPO (tức là tối ưu hóa không Hessian), đòi hỏi tính toán gradient liên hợp đắt hơn.
Trong video sau, bạn có thể thấy sự so sánh ở các mốc thời gian khác nhau giữa các tác nhân được đào tạo bằng ACKTR để giải trò chơi Q-Bert và các tác nhân được đào tạo bằng A2C. Các tác nhân ACKTR đạt điểm cao hơn các tác nhân được đào tạo bằng A2C.
Đường cơ sở và điểm chuẩn
Bản phát hành này bao gồm bản phát hành cơ sở OpenAI của ACKTR, cũng như bản phát hành A2C.
Chúng tôi cũng đang công bố các chuẩn mực(mở trong cửa sổ mới) đánh giá ACKTR so với A2C, PPO và ACER trên một loạt các tác vụ. Trong sơ đồ sau, chúng tôi trình bày hiệu suất của ACKTR trên 49 trò chơi Atari so với các thuật toán khác: A2C, PPO, ACER. Các siêu tham số của ACKTR được tác giả của ACKTR điều chỉnh chỉ trên một trò chơi, Breakout.
.png)
A2C và A3C
Phương pháp Asynchronous Advantage Actor Critic (A3C) đã có ảnh hưởng rất lớn kể từ khi bài báo đã được công bố. Thuật toán kết hợp một số ý tưởng chính:
+ Một chương trình cập nhật hoạt động trên các phân đoạn kinh nghiệm có độ dài cố định (ví dụ: 20 bước thời gian) và sử dụng các phân đoạn này để tính toán các ước tính về lợi nhuận và hàm lợi thế.
+ Kiến trúc chia sẻ các lớp giữa chức năng chính sách và giá trị.
+ Cập nhật không đồng bộ.
Sau khi đọc bài báo, các nhà nghiên cứu AI tự hỏi liệu sự không đồng bộ có dẫn đến cải thiện hiệu suất hay không (ví dụ: "có lẽ tiếng ồn được thêm vào sẽ cung cấp một số quy tắc hóa hoặc khám phá?"), hay đó chỉ là một chi tiết triển khai cho phép đào tạo nhanh hơn với triển khai dựa trên CPU.
Là một giải pháp thay thế cho việc triển khai không đồng bộ, các nhà nghiên cứu phát hiện ra rằng bạn có thể viết một triển khai đồng bộ, xác định chờ mỗi tác nhân hoàn thành phân đoạn kinh nghiệm của mình trước khi thực hiện cập nhật, tính trung bình trên tất cả các tác nhân. Một lợi thế của phương pháp này là nó có thể sử dụng GPU hiệu quả hơn, hoạt động tốt nhất với kích thước lô lớn. Thuật toán này được gọi là A2C, viết tắt của advantage actor critic.
Triển khai A2C đồng bộ của chúng tôi hoạt động tốt hơn so với triển khai không đồng bộ của chúng tôi—chúng tôi chưa thấy bất kỳ bằng chứng nào cho thấy tiếng ồn do không đồng bộ gây ra mang lại bất kỳ lợi ích nào về hiệu suất. Triển khai A2C này tiết kiệm chi phí hơn A3C khi sử dụng máy GPU đơn và nhanh hơn triển khai A3C chỉ có CPU khi sử dụng các chính sách lớn hơn.
Chúng tôi đã đưa mã vào Baselines để đào tạo convnet truyền tiếp và LSTM trên chuẩn Atari bằng A2C.
Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ

Cách đổi Mật khẩu Chat GPT - Hướng dẫn đổi Pass Chat GPT 100% Thành công
Hướng dẫn Cách đăng nhập Chat GPT Nhanh nhất | Có hỗ trợ Miễn phí qua Teamview-Ultraview
Chat GPT Plus là gì? So sánh Chat GPT Plus với Chat GPT Miễn phí
Chat GPT bị giới hạn giải thích vì sao và cách khắc phục
Chat GPT là gì ? Cách đăng Ký Chat GPT Miễn Phí tại Việt Nam