Học tăng cường với phần thưởng dựa trên dự đoán

Chúng tôi đã phát triển Random Network Distillation (RND), một phương pháp dựa trên dự đoán để khuyến khích các tác nhân học tăng cường khám phá môi trường của chúng thông qua sự tò mò, lần đầu tiên vượt qua hiệu suất trung bình của con người trong Montezuma's Revenge. RND đạt được hiệu suất tiên tiến, định kỳ tìm thấy tất cả 24 phòng và giải quyết cấp độ đầu tiên mà không cần sử dụng bản trình diễn hoặc không có quyền truy cập vào trạng thái cơ bản của trò chơi.

Tài khoản ChatGPT Plus chính hãng giá rẻ tại đây

RND khuyến khích việc truy cập các trạng thái không quen thuộc bằng cách đo lường mức độ khó để dự đoán đầu ra của một mạng nơ-ron ngẫu nhiên cố định trên các trạng thái đã truy cập. Trong các trạng thái không quen thuộc, rất khó để đoán đầu ra và do đó phần thưởng cao. Nó có thể được áp dụng cho bất kỳ thuật toán học tăng cường nào, dễ triển khai và hiệu quả khi mở rộng quy mô. Dưới đây, chúng tôi phát hành một triển khai tham chiếu của RND có thể tái tạo các kết quả từ bài báo của chúng tôi.

Để một tác nhân đạt được mục tiêu mong muốn, trước tiên nó phải khám phá những gì có thể trong môi trường của nó và những gì cấu thành nên sự tiến triển hướng tới mục tiêu. Nhiều tín hiệu phần thưởng của trò chơi cung cấp một chương trình giảng dạy sao cho ngay cả các chiến lược khám phá đơn giản cũng đủ để đạt được mục tiêu của trò chơi. Trong tác phẩm có tính chất khởi đầu giới thiệu DQN, Montezuma's Revenge là trò chơi duy nhất mà DQN đạt 0% điểm trung bình của con người (4,7K) . Các chiến lược khám phá đơn giản rất khó có thể thu thập được bất kỳ phần thưởng nào hoặc nhìn thấy nhiều hơn một vài trong số 24 phòng trong cấp độ. Kể từ đó, nhiều người coi những tiến bộ trong Montezuma's Revenge là đồng nghĩa với những tiến bộ trong khám phá.

Tiến bộ đáng kể đã đạt được vào năm 2016 (mở trong cửa sổ mới) bằng cách kết hợp DQN với phần thưởng khám phá dựa trên số lượng, tạo ra một tác nhân khám phá 15 phòng đạt được điểm cao là 6,6K và phần thưởng trung bình khoảng 3,7K. Kể từ đó, đáng kể(mở trong cửa sổ mới) sự cải tiến trong số điểm đạt được bởi một tác nhân RL chỉ đến từ việc khai thác quyền truy cập vào các cuộc biểu tình từ các chuyên gia con người hoặc truy cập vào trạng thái cơ bản của trình giả lập (mở trong cửa sổ mới).

Chúng tôi đã chạy một thử nghiệm RND quy mô lớn với 1024 nhân viên triển khai, dẫn đến lợi nhuận trung bình là 10K trong 9 lần chạy và lợi nhuận trung bình tốt nhất là 14,5K. Mỗi lần chạy phát hiện ra từ 20 đến 22 phòng. Ngoài ra, một trong những thử nghiệm quy mô nhỏ hơn nhưng chạy lâu hơn của chúng tôi đã tạo ra một lần chạy (trong số 10 lần) đạt được lợi nhuận tốt nhất là 17,5K tương ứng với việc vượt qua cấp độ đầu tiên và tìm thấy tất cả 24 phòng . Biểu đồ bên dưới so sánh hai thử nghiệm này cho thấy lợi nhuận trung bình như một hàm của các bản cập nhật tham số.

Hình ảnh trực quan bên dưới cho thấy tiến trình của thí nghiệm quy mô nhỏ hơn trong việc khám phá các phòng. Sự tò mò thúc đẩy tác nhân khám phá các phòng mới và tìm cách tăng điểm trong trò chơi, và phần thưởng bên ngoài này thúc đẩy tác nhân quay lại các phòng đó sau trong quá trình đào tạo.

Nghiên cứu quy mô lớn về việc học tập theo sự tò mò

Trước khi phát triển RND, chúng tôi, cùng với các cộng tác viên từ UC Berkeley, đã nghiên cứu việc học mà không có bất kỳ phần thưởng nào dành riêng cho môi trường. Sự tò mò giúp chúng tôi có cách dễ dàng hơn để dạy các tác nhân tương tác với bất kỳ môi trường nào, thay vì thông qua một hàm phần thưởng dành riêng cho nhiệm vụ được thiết kế rộng rãi mà chúng tôi hy vọng tương ứng với việc giải quyết một nhiệm vụ. Các dự án như ALE (mở trong cửa sổ mới), Vũ trụ, Malmö, Phòng tập thể dục, Phòng tập thể dục Retro (mở trong cửa sổ mới), Đoàn kết (mở trong cửa sổ mới), Phòng thí nghiệm DeepMind (mở trong cửa sổ mới), Trí tuệ nhân tạo (mở trong cửa sổ mới) tạo ra một số lượng lớn các môi trường mô phỏng để một tác nhân tương tác thông qua một giao diện chuẩn hóa. Một tác nhân sử dụng một hàm phần thưởng chung không dành riêng cho các chi tiết cụ thể của một môi trường có thể đạt được trình độ năng lực cơ bản trong nhiều môi trường khác nhau, dẫn đến khả năng của tác nhân trong việc xác định những hành vi hữu ích nào ngay cả khi không có phần thưởng được thiết kế cẩn thận.

Trong các thiết lập học tăng cường tiêu chuẩn, tại mỗi bước thời gian rời rạc, tác nhân gửi một hành động đến môi trường và môi trường phản hồi bằng cách phát ra quan sát tiếp theo, phần thưởng chuyển tiếp và chỉ báo kết thúc tập. Trong bài báo trước của chúng tôi chúng tôi yêu cầu môi trường phải đưa ra chỉ một quan sát tiếp theo. Ở đó, tác nhân học được mô hình dự đoán trạng thái tiếp theo từ kinh nghiệm của mình và sử dụng lỗi dự đoán như một phần thưởng nội tại. Kết quả là nó bị thu hút bởi những điều không thể đoán trước. Ví dụ, nó sẽ thấy sự thay đổi trong điểm số trò chơi chỉ có giá trị nếu điểm số được hiển thị trên màn hình và sự thay đổi đó khó dự đoán. Tác nhân thường sẽ thấy các tương tác với các đối tượng mới có giá trị, vì kết quả của những tương tác như vậy thường khó dự đoán hơn các khía cạnh khác của môi trường.

Tương tự như trước công việc, chúng tôi đã cố gắng tránh mô hình hóa mọi khía cạnh của môi trường, bất kể chúng có liên quan hay không, bằng cách chọn mô hình hóa các tính năng của quan sát. Đáng ngạc nhiên là chúng tôi thấy rằng ngay cả các tính năng ngẫu nhiên cũng hoạt động tốt.

Các tác nhân tò mò làm gì?

Chúng tôi đã thử nghiệm tác nhân của mình trên hơn 50 môi trường khác nhau và quan sát thấy một loạt các mức độ năng lực từ các hành động có vẻ ngẫu nhiên đến tương tác có chủ đích với môi trường. Điều ngạc nhiên là trong một số môi trường, tác nhân đã đạt được mục tiêu của trò chơi mặc dù mục tiêu của trò chơi không được truyền đạt đến nó thông qua phần thưởng bên ngoài.

Vấn đề về TV ồn ào

Giống như một người chơi cờ bạc tại máy đánh bạc bị thu hút bởi những kết quả ngẫu nhiên, tác nhân đôi khi bị mắc kẹt bởi sự tò mò của mình do vấn đề TV nhiễu. Tác nhân tìm thấy một nguồn ngẫu nhiên trong môi trường và tiếp tục quan sát nó, luôn trải nghiệm phần thưởng nội tại cao cho những chuyển đổi như vậy. Xem TV phát tiếng ồn tĩnh là một ví dụ về một cái bẫy như vậy. Chúng tôi chứng minh điều này theo nghĩa đen bằng cách đặt tác nhân vào môi trường mê cung Unity với TV phát các kênh ngẫu nhiên.

Trong khi vấn đề nhiễu TV là mối quan tâm về mặt lý thuyết, đối với các môi trường xác định chủ yếu như Montezuma's Revenge, chúng tôi dự đoán rằng sự tò mò sẽ thúc đẩy tác nhân khám phá các phòng và tương tác với các vật thể. Chúng tôi đã thử một số biến thể của sự tò mò dựa trên dự đoán trạng thái tiếp theo kết hợp phần thưởng khám phá với điểm số từ trò chơi.

Trong các thí nghiệm này, tác nhân kiểm soát môi trường thông qua một bộ điều khiển nhiễu lặp lại hành động cuối cùng thay vì hành động hiện tại với một số xác suất. Thiết lập này với các hành động dính đã được đề xuất như một phương pháp hay nhất để đào tạo các tác nhân trong các trò chơi hoàn toàn xác định như Atari để ngăn ngừa việc ghi nhớ. Các hành động cố định khiến quá trình chuyển đổi từ phòng này sang phòng khác trở nên không thể đoán trước.

Chưng cất mạng ngẫu nhiên

Vì dự đoán trạng thái tiếp theo vốn dễ bị ảnh hưởng bởi vấn đề truyền hình nhiễu, chúng tôi đã xác định được các nguồn lỗi dự đoán có liên quan sau đây:

+ Yếu tố 1 : Lỗi dự đoán cao khi người dự đoán không thể khái quát hóa từ các ví dụ đã thấy trước đó. Trải nghiệm mới lạ sau đó tương ứng với lỗi dự đoán cao.

+ Yếu tố 2 : Lỗi dự đoán cao vì mục tiêu dự đoán là ngẫu nhiên.

+ Yếu tố 3 : Lỗi dự đoán cao vì thiếu thông tin cần thiết cho dự đoán hoặc lớp mô hình dự báo quá hạn chế để phù hợp với độ phức tạp của hàm mục tiêu.

Chúng tôi xác định Yếu tố 1 là nguồn lỗi hữu ích vì nó định lượng tính mới lạ của trải nghiệm, trong khi Yếu tố 2 và 3 gây ra vấn đề nhiễu TV. Để tránh Yếu tố 2 và 3, chúng tôi đã phát triển RND, một phần thưởng khám phá mới dựa trên việc dự đoán đầu ra của mạng nơ-ron cố định và được khởi tạo ngẫu nhiên trên trạng thái tiếp theo, với chính trạng thái tiếp theo .

Trực giác cho thấy các mô hình dự đoán có lỗi thấp ở các trạng thái tương tự như các trạng thái mà chúng đã được đào tạo. Đặc biệt, các dự đoán của tác nhân về đầu ra của mạng nơ-ron được khởi tạo ngẫu nhiên sẽ kém chính xác hơn ở các trạng thái mới so với các trạng thái mà tác nhân thường xuyên truy cập. Ưu điểm của việc sử dụng bài toán dự đoán tổng hợp là chúng ta có thể có nó mang tính xác định (bỏ qua Yếu tố 2) và bên trong lớp hàm mà bộ dự đoán có thể biểu diễn (bỏ qua Yếu tố 3) bằng cách chọn bộ dự đoán có cùng kiến trúc với mạng mục tiêu. Những lựa chọn này làm cho RND miễn nhiễm với vấn đề nhiễu-TV.

Chúng tôi kết hợp phần thưởng khám phá với phần thưởng bên ngoài thông qua một biến thể của Tối ưu hóa chính sách gần(mở trong cửa sổ mới) ( PPO(mở trong cửa sổ mới)) sử dụng hai đầu giá trị cho hai luồng phần thưởng . Điều này cho phép chúng tôi sử dụng các mức chiết khấu khác nhau cho các phần thưởng khác nhau và kết hợp lợi nhuận theo từng đợt và không theo từng đợt. Với sự linh hoạt bổ sung này, đặc vụ giỏi nhất của chúng tôi thường tìm thấy 22 trong số 24 phòng ở cấp độ đầu tiên trong Montezuma's Revenge và đôi khi vượt qua cấp độ đầu tiên sau khi tìm thấy hai phòng còn lại . Phương pháp tương tự có hiệu suất tiên tiến trên Venture và Gravitar.

Các vấn đề thực hiện

Những cân nhắc về bức tranh toàn cảnh như khả năng nhạy cảm với vấn đề TV nhiễu là quan trọng đối với việc lựa chọn thuật toán khám phá tốt. Tuy nhiên, chúng tôi thấy rằng việc đưa đúng các chi tiết có vẻ nhỏ trong thuật toán đơn giản của mình đã tạo nên sự khác biệt giữa một tác nhân không bao giờ rời khỏi phòng đầu tiên và một tác nhân có thể vượt qua cấp độ đầu tiên. Để tăng thêm tính ổn định cho quá trình đào tạo, chúng tôi đã tránh tình trạng bão hòa các tính năng và đưa phần thưởng nội tại vào phạm vi có thể dự đoán được. Chúng tôi cũng nhận thấy những cải tiến đáng kể về hiệu suất của RND mỗi khi phát hiện và sửa lỗi (lỗi yêu thích của chúng tôi liên quan đến việc vô tình đưa một mảng về 0 khiến các giá trị trả về bên ngoài được coi là không theo từng đợt; chúng tôi chỉ nhận ra trường hợp này sau khi bối rối vì hàm giá trị bên ngoài trông có vẻ tuần hoàn một cách đáng ngờ). Việc đưa đúng các chi tiết như vậy là một phần quan trọng để đạt được hiệu suất cao ngay cả với các thuật toán về mặt khái niệm tương tự như công trình trước đây. Đây là một lý do để ưu tiên các thuật toán đơn giản hơn khi có thể.

Xem thêm: mua tài khoản ChatGPT 4 chính hãng giá rẻ