Chúng tôi đang phát hành một lớp thuật toán học tăng cường mới, Proximal Policy Optimization (PPO), có hiệu suất tương đương hoặc tốt hơn các phương pháp tiên tiến trong khi lại dễ triển khai và điều chỉnh hơn nhiều. PPO đã trở thành thuật toán học tăng cường mặc định tại OpenAI vì dễ sử dụng và hiệu suất tốt.
Phương pháp chính sách gradient là nền tảng cho những đột phá gần đây trong việc sử dụng mạng lưới nơ-ron sâu để điều khiển, từ trò chơi điện tử, để chuyển động 3D, để đi. Nhưng việc đạt được kết quả tốt thông qua các phương pháp chính sách gradient là một thách thức vì chúng nhạy cảm với sự lựa chọn kích thước bước — quá nhỏ và tiến trình sẽ chậm một cách vô vọng; quá lớn và tín hiệu bị nhiễu lấn át hoặc người ta có thể thấy hiệu suất giảm thảm khốc. Chúng cũng thường có hiệu quả mẫu rất kém, mất hàng triệu (hoặc hàng tỷ) bước thời gian để học các tác vụ đơn giản.
Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ
Các nhà nghiên cứu đã tìm cách loại bỏ những sai sót này bằng các phương pháp như TRPO và ACER, bằng cách hạn chế hoặc tối ưu hóa kích thước của bản cập nhật chính sách. Các phương pháp này có những đánh đổi riêng của chúng—ACER phức tạp hơn nhiều so với PPO, yêu cầu thêm mã để sửa lỗi ngoài chính sách và bộ đệm phát lại, trong khi chỉ hoạt động tốt hơn một chút so với PPO trên chuẩn Atari; TRPO—mặc dù hữu ích cho các tác vụ điều khiển liên tục—không dễ tương thích với các thuật toán chia sẻ tham số giữa chính sách và hàm giá trị hoặc tổn thất phụ, như những thuật toán được sử dụng để giải quyết các vấn đề trong Atari và các miền khác mà đầu vào trực quan là đáng kể.
PPO
Với học có giám sát, chúng ta có thể dễ dàng triển khai hàm chi phí, chạy gradient descent trên đó và rất tự tin rằng chúng ta sẽ có được kết quả tuyệt vời với việc điều chỉnh siêu tham số tương đối ít. Con đường dẫn đến thành công trong học tăng cường không rõ ràng như vậy—các thuật toán có nhiều bộ phận chuyển động khó gỡ lỗi và chúng đòi hỏi nỗ lực đáng kể trong việc điều chỉnh để có được kết quả tốt. PPO tạo ra sự cân bằng giữa tính dễ triển khai, độ phức tạp của mẫu và tính dễ điều chỉnh, cố gắng tính toán bản cập nhật ở mỗi bước để giảm thiểu hàm chi phí trong khi đảm bảo độ lệch so với chính sách trước đó tương đối nhỏ.
Chúng tôi đã từng chi tiết một biến thể của PPO sử dụng KL thích ứng hình phạt để kiểm soát sự thay đổi của chính sách tại mỗi lần lặp lại. Biến thể mới sử dụng một hàm mục tiêu mới lạ thường không có trong các thuật toán khác:
LC L I P( θ )=E^t[ phút ( rt( θ ))MỘT^t,c l i p ( rt( θ ) ,1−,1+)MỘT^t)]
+ sốsốlà tham số chính sách
+ E^tE^tbiểu thị kỳ vọng thực nghiệm qua các bước thời gian
+ rtrtlà tỷ lệ xác suất theo chính sách mới và chính sách cũ, tương ứng
+ MỘT^tMỘT^tlà lợi thế ước tính tại thời điểmtt
+ làlàlà một siêu tham số, thường là 0,1 hoặc 0,2
Mục tiêu này triển khai một cách để thực hiện cập nhật Vùng tin cậy tương thích với Stochastic Gradient Descent và đơn giản hóa thuật toán bằng cách loại bỏ hình phạt KL và nhu cầu thực hiện các bản cập nhật thích ứng. Trong các thử nghiệm, thuật toán này đã thể hiện hiệu suất tốt nhất trên các tác vụ điều khiển liên tục và gần như phù hợp với hiệu suất của ACER trên Atari, mặc dù việc triển khai đơn giản hơn nhiều.
Robot phức tạp, có thể điều khiển được
Chúng tôi đã tạo ra các tác nhân tương tác dựa trên các chính sách được đào tạo bởi PPO—chúng tôi có thể sử dụng bàn phím để thiết lập các vị trí mục tiêu mới cho robot trong môi trường bên trong Roboschool; mặc dù các chuỗi đầu vào khác với những gì tác nhân được đào tạo, nhưng nó vẫn có khả năng khái quát hóa.
Đường cơ sở: PPO, PPO2, ACER và TRPO
Bản phát hành này của các đường cơ sở bao gồm các triển khai song song, có thể mở rộng của PPO và TRPO, cả hai đều sử dụng MPI để truyền dữ liệu. Cả hai đều sử dụng Python3 và TensorFlow. Chúng tôi cũng đang thêm các phiên bản được đào tạo trước của các chính sách được sử dụng để đào tạo các robot trên vào sở thú đại lý Roboschool.
Cập nhật : Chúng tôi cũng đang phát hành một triển khai PPO hỗ trợ GPU, được gọi là PPO2. Triển khai này chạy nhanh hơn khoảng 3 lần so với đường cơ sở PPO hiện tại trên Atari. Ngoài ra, chúng tôi đang phát hành một triển khai Actor Critic với Experience Replay (ACER), một thuật toán gradient chính sách hiệu quả về mẫu. ACER sử dụng bộ đệm phát lại, cho phép thực hiện nhiều hơn một bản cập nhật gradient bằng cách sử dụng từng phần kinh nghiệm được lấy mẫu, cũng như một hàm Q xấp xỉ được đào tạo bằng thuật toán Retrace.
Chúng tôi đang tìm kiếm những người giúp xây dựng và tối ưu hóa cơ sở mã thuật toán học tăng cường của chúng tôi. Nếu bạn hứng thú với RL, chuẩn mực, thử nghiệm kỹ lưỡng và mã nguồn mở, vui lòng nộp đơn và đề cập rằng bạn đã đọc bài đăng cơ bản của PPO trong đơn đăng ký của mình.
- Tài khoản ChatGPT 4 với nhiều ưu đãi đặc biệt trong ngày hôm nay