zalo
Chat ngay

Khám phá tốt hơn với nhiễu tham số

Chúng tôi thấy rằng việc thêm nhiễu thích ứng vào các tham số của thuật toán học tăng cường thường làm tăng hiệu suất. Phương pháp khám phá này dễ triển khai và rất hiếm khi làm giảm hiệu suất, vì vậy, đáng để thử trên bất kỳ vấn đề nào.

Tiếng ồn tham số cho phép chúng ta dạy các tác nhân nhiệm vụ nhanh hơn nhiều so với các phương pháp tiếp cận khác. Sau khi học trong 20 tập trên  HalfCheetah.Trong môi trường phòng tập thể dục (hiển thị ở trên), chính sách này đạt được số điểm khoảng 3.000, trong khi chính sách được đào tạo với tiếng ồn hành động truyền thống chỉ đạt được số điểm khoảng 1.500.

Tiếng ồn tham số thêm tiếng ồn thích ứng vào các tham số của chính sách mạng nơ-ron, thay vì vào không gian hành động của nó. RL truyền thống sử dụng tiếng ồn không gian hành động để thay đổi khả năng xảy ra liên quan đến từng hành động mà tác nhân có thể thực hiện từ thời điểm này sang thời điểm khác. Tiếng ồn không gian tham số đưa tính ngẫu nhiên trực tiếp vào các tham số của tác nhân, thay đổi các loại quyết định mà nó đưa ra sao cho chúng luôn phụ thuộc hoàn toàn vào những gì tác nhân hiện đang cảm nhận. Kỹ thuật này là một nền tảng trung gian giữa  các chiến lược tiến hóa (nơi bạn thao túng các tham số của chính sách nhưng không ảnh hưởng đến các hành động mà chính sách thực hiện khi khám phá môi trường trong mỗi lần triển khai) và các phương pháp học tăng cường sâu như  TRPO,  ĐQN và DDPG (nơi bạn không chạm vào các tham số nhưng thêm nhiễu vào không gian hành động của chính sách).

Tiếng ồn tham số giúp các thuật toán khám phá môi trường của chúng hiệu quả hơn, dẫn đến điểm số cao hơn và hành vi thanh lịch hơn. Chúng tôi cho rằng điều này là do việc thêm tiếng ồn một cách có chủ đích vào các tham số của chính sách khiến quá trình khám phá của tác nhân nhất quán qua các bước thời gian khác nhau, trong khi việc thêm tiếng ồn vào không gian hành động dẫn đến quá trình khám phá khó đoán hơn, không liên quan đến bất kỳ điều gì duy nhất đối với các tham số của tác nhân.

Mọi người  trước đây đã đã thử áp dụng nhiễu tham số vào các gradient chính sách. Chúng tôi đã mở rộng điều này bằng cách chỉ ra rằng kỹ thuật này hoạt động trên các chính sách dựa trên mạng nơ-ron sâu và có thể áp dụng cho cả thuật toán có và không có chính sách.

Khi tiến hành nghiên cứu này, chúng tôi gặp phải ba vấn đề:

+ Các lớp khác nhau của mạng có độ nhạy khác nhau với nhiễu loạn.

+ Độ nhạy của trọng số chính sách có thể thay đổi theo thời gian trong quá trình đào tạo, khiến chúng tôi khó có thể dự đoán các hành động mà chính sách sẽ thực hiện.

+ Việc chọn đúng thang độ nhiễu rất khó vì khó có thể hiểu trực quan cách độ nhiễu của tham số ảnh hưởng đến chính sách trong quá trình đào tạo.

Chúng tôi sử dụng chuẩn hóa lớp để giải quyết vấn đề đầu tiên, đảm bảo rằng đầu ra của lớp nhiễu động (sẽ là đầu vào của lớp tiếp theo) vẫn nằm trong một phân phối tương tự.

Chúng tôi giải quyết vấn đề thứ hai và thứ ba bằng cách giới thiệu một lược đồ thích ứng để điều chỉnh kích thước của nhiễu loạn không gian tham số. Sự điều chỉnh này hoạt động bằng cách đo lường tác động của nhiễu loạn lên không gian hành động và mức độ nhiễu của không gian hành động lớn hơn hay nhỏ hơn mục tiêu đã xác định. Thủ thuật này cho phép chúng tôi đưa vấn đề lựa chọn thang nhiễu vào không gian hành động, dễ diễn giải hơn không gian tham số.

Đường cơ sở và chuẩn mực

Chúng tôi cũng đang phát hành  mã cơ sở kết hợp kỹ thuật này cho DQN, Double DQN, Dueling DQN, Dueling Double DQN và DDPG.

Chúng tôi đã đưa vào các điểm chuẩn về hiệu suất của DDQN có và không có nhiễu tham số trên một tập hợp con  các trò chơi Atari ngữ liệu và ba biến thể của DDPG trên một loạt các nhiệm vụ điều khiển liên tục trong  trình mô phỏng Mujoco.

Phát triển

Khi chúng tôi lần đầu tiên tiến hành nghiên cứu này, chúng tôi thấy rằng nhiễu loạn mà chúng tôi áp dụng cho hàm Q của DQN đôi khi có thể quá mức đến mức khiến thuật toán thực hiện lặp lại cùng một hành động. Để giải quyết vấn đề này, chúng tôi đã thêm một đầu riêng biệt biểu diễn rõ ràng chính sách như trong DDPG (trong DQN thông thường, chính sách chỉ được biểu diễn ngầm bằng hàm Q) để làm cho thiết lập giống với các thí nghiệm khác của chúng tôi hơn. Tuy nhiên, khi chuẩn bị mã cho bản phát hành này, chúng tôi đã chạy một thí nghiệm sử dụng nhiễu không gian tham số  mà không có  đầu chính sách riêng biệt. Chúng tôi thấy rằng điều này hoạt động tương đương với phiên bản của chúng tôi với đầu chính sách riêng biệt trong khi đơn giản hơn nhiều để triển khai. Các thí nghiệm tiếp theo đã xác nhận rằng đầu chính sách riêng biệt thực sự không cần thiết vì thuật toán có khả năng đã được cải thiện kể từ các thí nghiệm ban đầu của chúng tôi do chúng tôi thay đổi cách chúng tôi điều chỉnh lại nhiễu. Điều này dẫn đến một thuật toán đơn giản hơn, dễ triển khai hơn và ít tốn kém hơn để đào tạo trong khi vẫn đạt được kết quả rất giống nhau. Điều quan trọng cần nhớ là các thuật toán AI, đặc biệt là trong học tăng cường, có thể  âm thầm và tinh vi thất bại, điều này có thể giúp mọi người đưa ra giải pháp khắc phục những lỗi còn bỏ sót.

Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !