Khám phá tốt hơn với nhiễu tham số

Chúng tôi thấy rằng việc thêm nhiễu thích ứng vào các tham số của thuật toán học tăng cường thường làm tăng hiệu suất. Phương pháp khám phá này dễ triển khai và rất hiếm khi làm giảm hiệu suất, vì vậy, đáng để thử trên bất kỳ vấn đề nào.

Tiếng ồn tham số cho phép chúng ta dạy các tác nhân nhiệm vụ nhanh hơn nhiều so với các phương pháp tiếp cận khác. Sau khi học trong 20 tập trên HalfCheetah.Trong môi trường phòng tập thể dục (hiển thị ở trên), chính sách này đạt được số điểm khoảng 3.000, trong khi chính sách được đào tạo với tiếng ồn hành động truyền thống chỉ đạt được số điểm khoảng 1.500.

Tiếng ồn tham số thêm tiếng ồn thích ứng vào các tham số của chính sách mạng nơ-ron, thay vì vào không gian hành động của nó. RL truyền thống sử dụng tiếng ồn không gian hành động để thay đổi khả năng xảy ra liên quan đến từng hành động mà tác nhân có thể thực hiện từ thời điểm này sang thời điểm khác. Tiếng ồn không gian tham số đưa tính ngẫu nhiên trực tiếp vào các tham số của tác nhân, thay đổi các loại quyết định mà nó đưa ra sao cho chúng luôn phụ thuộc hoàn toàn vào những gì tác nhân hiện đang cảm nhận. Kỹ thuật này là một nền tảng trung gian giữa các chiến lược tiến hóa (nơi bạn thao túng các tham số của chính sách nhưng không ảnh hưởng đến các hành động mà chính sách thực hiện khi khám phá môi trường trong mỗi lần triển khai) và các phương pháp học tăng cường sâu như TRPO, ĐQN và DDPG (nơi bạn không chạm vào các tham số nhưng thêm nhiễu vào không gian hành động của chính sách).

Tài khoản ChatGPT 4 TẠI ĐÂY với nhiều ưu đãi hấp hấp dẫn!

Tiếng ồn tham số giúp các thuật toán khám phá môi trường của chúng hiệu quả hơn, dẫn đến điểm số cao hơn và hành vi thanh lịch hơn. Chúng tôi cho rằng điều này là do việc thêm tiếng ồn một cách có chủ đích vào các tham số của chính sách khiến quá trình khám phá của tác nhân nhất quán qua các bước thời gian khác nhau, trong khi việc thêm tiếng ồn vào không gian hành động dẫn đến quá trình khám phá khó đoán hơn, không liên quan đến bất kỳ điều gì duy nhất đối với các tham số của tác nhân.

Mọi người trước đây đã đã thử áp dụng nhiễu tham số vào các gradient chính sách. Chúng tôi đã mở rộng điều này bằng cách chỉ ra rằng kỹ thuật này hoạt động trên các chính sách dựa trên mạng nơ-ron sâu và có thể áp dụng cho cả thuật toán có và không có chính sách.

Khi tiến hành nghiên cứu này, chúng tôi gặp phải ba vấn đề:

+ Các lớp khác nhau của mạng có độ nhạy khác nhau với nhiễu loạn.

+ Độ nhạy của trọng số chính sách có thể thay đổi theo thời gian trong quá trình đào tạo, khiến chúng tôi khó có thể dự đoán các hành động mà chính sách sẽ thực hiện.

+ Việc chọn đúng thang độ nhiễu rất khó vì khó có thể hiểu trực quan cách độ nhiễu của tham số ảnh hưởng đến chính sách trong quá trình đào tạo.

Chúng tôi sử dụng chuẩn hóa lớp để giải quyết vấn đề đầu tiên, đảm bảo rằng đầu ra của lớp nhiễu động (sẽ là đầu vào của lớp tiếp theo) vẫn nằm trong một phân phối tương tự.

Chúng tôi giải quyết vấn đề thứ hai và thứ ba bằng cách giới thiệu một lược đồ thích ứng để điều chỉnh kích thước của nhiễu loạn không gian tham số. Sự điều chỉnh này hoạt động bằng cách đo lường tác động của nhiễu loạn lên không gian hành động và mức độ nhiễu của không gian hành động lớn hơn hay nhỏ hơn mục tiêu đã xác định. Thủ thuật này cho phép chúng tôi đưa vấn đề lựa chọn thang nhiễu vào không gian hành động, dễ diễn giải hơn không gian tham số.

Đường cơ sở và chuẩn mực

Chúng tôi cũng đang phát hành mã cơ sở kết hợp kỹ thuật này cho DQN, Double DQN, Dueling DQN, Dueling Double DQN và DDPG.

Chúng tôi đã đưa vào các điểm chuẩn về hiệu suất của DDQN có và không có nhiễu tham số trên một tập hợp con các trò chơi Atari ngữ liệu và ba biến thể của DDPG trên một loạt các nhiệm vụ điều khiển liên tục trong trình mô phỏng Mujoco.

Phát triển

Khi chúng tôi lần đầu tiên tiến hành nghiên cứu này, chúng tôi thấy rằng nhiễu loạn mà chúng tôi áp dụng cho hàm Q của DQN đôi khi có thể quá mức đến mức khiến thuật toán thực hiện lặp lại cùng một hành động. Để giải quyết vấn đề này, chúng tôi đã thêm một đầu riêng biệt biểu diễn rõ ràng chính sách như trong DDPG (trong DQN thông thường, chính sách chỉ được biểu diễn ngầm bằng hàm Q) để làm cho thiết lập giống với các thí nghiệm khác của chúng tôi hơn. Tuy nhiên, khi chuẩn bị mã cho bản phát hành này, chúng tôi đã chạy một thí nghiệm sử dụng nhiễu không gian tham số mà không có đầu chính sách riêng biệt. Chúng tôi thấy rằng điều này hoạt động tương đương với phiên bản của chúng tôi với đầu chính sách riêng biệt trong khi đơn giản hơn nhiều để triển khai. Các thí nghiệm tiếp theo đã xác nhận rằng đầu chính sách riêng biệt thực sự không cần thiết vì thuật toán có khả năng đã được cải thiện kể từ các thí nghiệm ban đầu của chúng tôi do chúng tôi thay đổi cách chúng tôi điều chỉnh lại nhiễu. Điều này dẫn đến một thuật toán đơn giản hơn, dễ triển khai hơn và ít tốn kém hơn để đào tạo trong khi vẫn đạt được kết quả rất giống nhau. Điều quan trọng cần nhớ là các thuật toán AI, đặc biệt là trong học tăng cường, có thể âm thầm và tinh vi thất bại, điều này có thể giúp mọi người đưa ra giải pháp khắc phục những lỗi còn bỏ sót.

Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ

Họ tên (*)	Số điện thoại (*)
Email (*)	Dịch vụ

Khám phá tốt hơn với nhiễu tham số

Đường cơ sở và chuẩn mực

Phát triển

Bài liên quan

Hệ thống phân cấp hướng dẫn: Đào tạo LLM để ưu tiên các…

Trình Tạo Bài Hát Trên Cửa Hàng GPT: Công Cụ Mới Mẻ Cho…

Các mô hình tạo video như trình mô phỏng thế giới

60+ Lời nhắc ChatGPT cho các bài đăng hấp dẫn trên mạng xã…

Cải thiện lý luận toán học bằng cách giám sát quy trình

Liệu ChatGPT có thay thế được người viết nội dung không?

Đầu vào dân chủ cho AI

AI trong kinh doanh 2025: Vai trò của ChatGPT trong những đổi mới…

GPT là GPT: Một cái nhìn ban đầu về tiềm năng tác động…

Cách đổi Mật khẩu Chat GPT - Hướng dẫn đổi Pass Chat GPT 100% Thành công

Hướng dẫn Cách đăng nhập Chat GPT Nhanh nhất | Có hỗ trợ Miễn phí qua Teamview-Ultraview

Chat GPT Plus là gì? So sánh Chat GPT Plus với Chat GPT Miễn phí

Chat GPT bị giới hạn giải thích vì sao và cách khắc phục

Chat GPT là gì ? Cách đăng Ký Chat GPT Miễn Phí tại Việt Nam

AI trong kinh doanh 2025: Vai trò của ChatGPT trong những đổi mới trong tương lai

GPT là GPT: Một cái nhìn ban đầu về tiềm năng tác động của các mô hình ngôn ngữ lớn lên thị trường lao động

Có gì mới trong ChatGPT vào năm 2025?

GPT-4

ChatGPT đang thay đổi cách chúng ta viết?

Point-E: Một hệ thống tạo ra các đám mây điểm 3D từ các lời nhắc phức tạp

Chatgpt sẽ ảnh hưởng đến SEO như thế nào

Luật mở rộng cho mô hình phần thưởng tối ưu hóa quá mức

Trò chuyện GPT-4 - Tất cả những gì bạn cần biết về AI mạnh mẽ này

Giới thiệu Whisper

Chế độ nghiên cứu sâu ChatGPT là gì?

Đào tạo hiệu quả các mô hình ngôn ngữ để điền vào giữa

ChatGPT 2025: AI Thế Hệ Mới Sẵn Sàng Thay Đổi Ngành Viết Nội Dung

DALL·E 2 biện pháp giảm thiểu trước khi đào tạo

Cập nhật Big ChatGPT năm 2025: Cách mạng hóa tiếp thị kỹ thuật số với AI tiên tiến

Học chơi Minecraft với Video PreTraining

Chat GPT

Trí tuệ nhân tạo AI

Đăng ký tư vấn