Tối ưu hóa chính sách gần

Chúng tôi đang phát hành một lớp thuật toán học tăng cường mới, Proximal Policy Optimization (PPO), có hiệu suất tương đương hoặc tốt hơn các phương pháp tiên tiến trong khi lại dễ triển khai và điều chỉnh hơn nhiều. PPO đã trở thành thuật toán học tăng cường mặc định tại OpenAI vì dễ sử dụng và hiệu suất tốt.

Phương pháp chính sách gradient là nền tảng cho những đột phá gần đây trong việc sử dụng mạng lưới nơ-ron sâu để điều khiển, từ trò chơi điện tử, để chuyển động 3D, để đi. Nhưng việc đạt được kết quả tốt thông qua các phương pháp chính sách gradient là một thách thức vì chúng nhạy cảm với sự lựa chọn kích thước bước — quá nhỏ và tiến trình sẽ chậm một cách vô vọng; quá lớn và tín hiệu bị nhiễu lấn át hoặc người ta có thể thấy hiệu suất giảm thảm khốc. Chúng cũng thường có hiệu quả mẫu rất kém, mất hàng triệu (hoặc hàng tỷ) bước thời gian để học các tác vụ đơn giản.

Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ

Các nhà nghiên cứu đã tìm cách loại bỏ những sai sót này bằng các phương pháp như TRPO và ACER, bằng cách hạn chế hoặc tối ưu hóa kích thước của bản cập nhật chính sách. Các phương pháp này có những đánh đổi riêng của chúng—ACER phức tạp hơn nhiều so với PPO, yêu cầu thêm mã để sửa lỗi ngoài chính sách và bộ đệm phát lại, trong khi chỉ hoạt động tốt hơn một chút so với PPO trên chuẩn Atari; TRPO—mặc dù hữu ích cho các tác vụ điều khiển liên tục—không dễ tương thích với các thuật toán chia sẻ tham số giữa chính sách và hàm giá trị hoặc tổn thất phụ, như những thuật toán được sử dụng để giải quyết các vấn đề trong Atari và các miền khác mà đầu vào trực quan là đáng kể.

PPO

Với học có giám sát, chúng ta có thể dễ dàng triển khai hàm chi phí, chạy gradient descent trên đó và rất tự tin rằng chúng ta sẽ có được kết quả tuyệt vời với việc điều chỉnh siêu tham số tương đối ít. Con đường dẫn đến thành công trong học tăng cường không rõ ràng như vậy—các thuật toán có nhiều bộ phận chuyển động khó gỡ lỗi và chúng đòi hỏi nỗ lực đáng kể trong việc điều chỉnh để có được kết quả tốt. PPO tạo ra sự cân bằng giữa tính dễ triển khai, độ phức tạp của mẫu và tính dễ điều chỉnh, cố gắng tính toán bản cập nhật ở mỗi bước để giảm thiểu hàm chi phí trong khi đảm bảo độ lệch so với chính sách trước đó tương đối nhỏ.

Chúng tôi đã từng chi tiết một biến thể của PPO sử dụng KL thích ứng hình phạt để kiểm soát sự thay đổi của chính sách tại mỗi lần lặp lại. Biến thể mới sử dụng một hàm mục tiêu mới lạ thường không có trong các thuật toán khác:

LC L I P( θ )=E^t[ phút ( rt( θ ))MỘT^t,c l i p ( rt( θ ) ,1−,1+)MỘT^t)]

+ sốsốlà tham số chính sách

+ E^tE^tbiểu thị kỳ vọng thực nghiệm qua các bước thời gian

+ rtrtlà tỷ lệ xác suất theo chính sách mới và chính sách cũ, tương ứng

+ MỘT^tMỘT^tlà lợi thế ước tính tại thời điểmtt

+ làlàlà một siêu tham số, thường là 0,1 hoặc 0,2

Mục tiêu này triển khai một cách để thực hiện cập nhật Vùng tin cậy tương thích với Stochastic Gradient Descent và đơn giản hóa thuật toán bằng cách loại bỏ hình phạt KL và nhu cầu thực hiện các bản cập nhật thích ứng. Trong các thử nghiệm, thuật toán này đã thể hiện hiệu suất tốt nhất trên các tác vụ điều khiển liên tục và gần như phù hợp với hiệu suất của ACER trên Atari, mặc dù việc triển khai đơn giản hơn nhiều.

Robot phức tạp, có thể điều khiển được

Chúng tôi đã tạo ra các tác nhân tương tác dựa trên các chính sách được đào tạo bởi PPO—chúng tôi có thể sử dụng bàn phím để thiết lập các vị trí mục tiêu mới cho robot trong môi trường bên trong Roboschool; mặc dù các chuỗi đầu vào khác với những gì tác nhân được đào tạo, nhưng nó vẫn có khả năng khái quát hóa.

Đường cơ sở: PPO, PPO2, ACER và TRPO

Bản phát hành này của các đường cơ sở bao gồm các triển khai song song, có thể mở rộng của PPO và TRPO, cả hai đều sử dụng MPI để truyền dữ liệu. Cả hai đều sử dụng Python3 và TensorFlow. Chúng tôi cũng đang thêm các phiên bản được đào tạo trước của các chính sách được sử dụng để đào tạo các robot trên vào sở thú đại lý Roboschool.

Cập nhật : Chúng tôi cũng đang phát hành một triển khai PPO hỗ trợ GPU, được gọi là PPO2. Triển khai này chạy nhanh hơn khoảng 3 lần so với đường cơ sở PPO hiện tại trên Atari. Ngoài ra, chúng tôi đang phát hành một triển khai Actor Critic với Experience Replay (ACER), một thuật toán gradient chính sách hiệu quả về mẫu. ACER sử dụng bộ đệm phát lại, cho phép thực hiện nhiều hơn một bản cập nhật gradient bằng cách sử dụng từng phần kinh nghiệm được lấy mẫu, cũng như một hàm Q xấp xỉ được đào tạo bằng thuật toán Retrace.

Chúng tôi đang tìm kiếm những người giúp xây dựng và tối ưu hóa cơ sở mã thuật toán học tăng cường của chúng tôi. Nếu bạn hứng thú với RL, chuẩn mực, thử nghiệm kỹ lưỡng và mã nguồn mở, vui lòng nộp đơn và đề cập rằng bạn đã đọc bài đăng cơ bản của PPO trong đơn đăng ký của mình.

Tài khoản ChatGPT 4 với nhiều ưu đãi đặc biệt trong ngày hôm nay

Họ tên (*)	Số điện thoại (*)
Email (*)	Dịch vụ

Tối ưu hóa chính sách gần

PPO

Robot phức tạp, có thể điều khiển được

Đường cơ sở: PPO, PPO2, ACER và TRPO

Bài liên quan

Hệ thống phân cấp hướng dẫn: Đào tạo LLM để ưu tiên các…

Trình Tạo Bài Hát Trên Cửa Hàng GPT: Công Cụ Mới Mẻ Cho…

Các mô hình tạo video như trình mô phỏng thế giới

60+ Lời nhắc ChatGPT cho các bài đăng hấp dẫn trên mạng xã…

Cải thiện lý luận toán học bằng cách giám sát quy trình

Liệu ChatGPT có thay thế được người viết nội dung không?

Đầu vào dân chủ cho AI

AI trong kinh doanh 2025: Vai trò của ChatGPT trong những đổi mới…

GPT là GPT: Một cái nhìn ban đầu về tiềm năng tác động…

Cách đổi Mật khẩu Chat GPT - Hướng dẫn đổi Pass Chat GPT 100% Thành công

Hướng dẫn Cách đăng nhập Chat GPT Nhanh nhất | Có hỗ trợ Miễn phí qua Teamview-Ultraview

Chat GPT Plus là gì? So sánh Chat GPT Plus với Chat GPT Miễn phí

Chat GPT bị giới hạn giải thích vì sao và cách khắc phục

Chat GPT là gì ? Cách đăng Ký Chat GPT Miễn Phí tại Việt Nam

AI trong kinh doanh 2025: Vai trò của ChatGPT trong những đổi mới trong tương lai

GPT là GPT: Một cái nhìn ban đầu về tiềm năng tác động của các mô hình ngôn ngữ lớn lên thị trường lao động

Có gì mới trong ChatGPT vào năm 2025?

GPT-4

ChatGPT đang thay đổi cách chúng ta viết?

Point-E: Một hệ thống tạo ra các đám mây điểm 3D từ các lời nhắc phức tạp

Chatgpt sẽ ảnh hưởng đến SEO như thế nào

Luật mở rộng cho mô hình phần thưởng tối ưu hóa quá mức

Trò chuyện GPT-4 - Tất cả những gì bạn cần biết về AI mạnh mẽ này

Giới thiệu Whisper

Chế độ nghiên cứu sâu ChatGPT là gì?

Đào tạo hiệu quả các mô hình ngôn ngữ để điền vào giữa

ChatGPT 2025: AI Thế Hệ Mới Sẵn Sàng Thay Đổi Ngành Viết Nội Dung

DALL·E 2 biện pháp giảm thiểu trước khi đào tạo

Cập nhật Big ChatGPT năm 2025: Cách mạng hóa tiếp thị kỹ thuật số với AI tiên tiến

Học chơi Minecraft với Video PreTraining

Chat GPT

Trí tuệ nhân tạo AI

Đăng ký tư vấn