zalo
Chat ngay

Học cách trả thù của Montezuma từ một cuộc biểu tình duy nhất

Chúng tôi đã đào tạo một điệp viên để đạt được số điểm cao là 74.500 trong  Montezuma's Revenge từ một cuộc biểu tình của con người, tốt hơn bất kỳ kết quả nào đã công bố trước đó. Thuật toán của chúng tôi rất đơn giản: tác nhân chơi một chuỗi trò chơi bắt đầu từ các trạng thái được lựa chọn cẩn thận từ cuộc biểu tình và học hỏi từ chúng bằng cách tối ưu hóa điểm số trò chơi bằng  PPO, cùng một thuật toán học tăng cường hỗ trợ  OpenAI Five.

Đặc vụ của chúng tôi đang chơi Montezuma's Revenge. Đặc vụ đạt được số điểm cuối cùng là 74.500 trong khoảng 12 phút chơi (video có tốc độ gấp đôi). Mặc dù phần lớn trò chơi của đặc vụ phản ánh phần trình diễn của chúng tôi, đặc vụ vượt qua số điểm trình diễn là 71.500 bằng cách nhặt thêm nhiều kim cương trên đường đi. Ngoài ra, đặc vụ học cách khai thác một lỗi trong trình giả lập để làm cho chìa khóa xuất hiện lại ở phút 4:25 của video, điều này không có trong phần trình diễn.

Khám phá và học tập

Để thành công trong vấn đề học tăng cường, AI cần thực hiện hai việc:

+ Tìm một chuỗi hành động dẫn đến phần thưởng tích cực. Đây là  bài toán khám phá  .

+ Hãy nhớ trình tự các hành động cần thực hiện và khái quát hóa thành các tình huống liên quan nhưng hơi khác một chút. Đây chính là  vấn đề học tập  .

Vấn đề khám phá có thể được bỏ qua phần lớn trong Montezuma's Revenge bằng cách bắt đầu mỗi tập RL bằng cách thiết lập lại từ một trạng thái trong một bản trình diễn. Bằng cách bắt đầu từ các trạng thái trình diễn, tác nhân cần thực hiện ít khám phá hơn nhiều để học cách chơi trò chơi so với khi bắt đầu từ đầu trò chơi ở mỗi tập. Làm như vậy cho phép chúng tôi tách biệt khám phá và học tập. Kết quả của chúng tôi cho thấy rằng khám phá là vấn đề khó nhất trong hai vấn đề đối với các trò chơi như Montezuma's Revenge và một số trò chơi Atari tương tự như PrivateEye.

Tại sao việc khám phá lại khó khăn

Các phương pháp RL không mô hình như gradient chính sách và Q-learning khám phá bằng cách thực hiện các hành động ngẫu nhiên. Nếu, tình cờ, các hành động ngẫu nhiên dẫn đến phần thưởng, chúng sẽ được  củng cố và tác nhân có nhiều khả năng thực hiện các hành động có lợi này trong tương lai. Điều này hoạt động tốt nếu phần thưởng đủ dày đặc để các hành động ngẫu nhiên dẫn đến phần thưởng với xác suất hợp lý. Tuy nhiên, nhiều trò chơi phức tạp hơn yêu cầu các chuỗi dài các hành động rất cụ thể để trải nghiệm bất kỳ phần thưởng nào và các chuỗi như vậy cực kỳ khó xảy ra ngẫu nhiên.

Hãy xem xét một trò chơi thực hiện một chuỗi chính xác N hành động để trải nghiệm phần thưởng đầu tiên. Nếu mỗi hành động đó được thực hiện với xác suất cố định, một tác nhân ngẫu nhiên sẽ cần chơi trò chơi trong khoảng thời gian được chia tỷ lệ theo exp(N) trước khi có thể mong đợi trải nghiệm phần thưởng đầu tiên.

Ví dụ, trong trường hợp của Montezuma's Revenge, xác suất lấy được chìa khóa đầu tiên có thể được phân tích như sau

p(lấy chìa khóa) = p(xuống thang 1) * p(xuống dây thừng) * p(xuống thang 2) * p(nhảy qua đầu lâu) * p(lên thang 3).

Bằng cách nhân N của các xác suất này với nhau, chúng ta sẽ có xác suất p(get key) kết quả nhỏ hơn theo cấp số nhân so với bất kỳ xác suất đầu vào riêng lẻ nào. Các thuật toán có tỷ lệ theo cấp số nhân sẽ bị hỏng rất nhanh khi vấn đề của bạn trở nên khó khăn hơn, điều này hạn chế các nhiệm vụ mà các kỹ thuật học tăng cường hiện tại có thể giải quyết.

Đơn giản hóa việc khám phá bằng các cuộc biểu tình

Mặc dù các phương pháp RL không mô hình gặp khó khăn khi tìm chuỗi hành động dài, nhưng chúng hoạt động tốt với các chuỗi ngắn hơn. Nhận thức chính của chúng tôi là chúng tôi có thể làm cho nhiệm vụ của mình dễ giải quyết hơn bằng cách phân tích nó thành một chương trình giảng dạy gồm các nhiệm vụ phụ đòi hỏi chuỗi hành động ngắn; chúng tôi xây dựng chương trình giảng dạy này bằng cách bắt đầu mỗi tập RL từ trạng thái trình diễn. Một biến thể của cùng một ý tưởng đã được sử dụng gần đây để  tạo chương trình giảng dạy ngược cho robot (mở trong cửa sổ mới), trong đó chương trình giảng dạy được xây dựng bằng cách liên tục làm nhiễu loạn một tập hợp các trạng thái ban đầu bằng các hành động ngẫu nhiên và chọn các trạng thái kết quả có mức độ khó phù hợp.

Cách tiếp cận của chúng tôi hoạt động bằng cách để mỗi tập RL bắt đầu từ một trạng thái trong một bản trình diễn đã ghi lại trước đó. Vào giai đoạn đầu của quá trình đào tạo, tác nhân bắt đầu mọi tập gần cuối bản trình diễn. Khi tác nhân có thể đánh bại hoặc ít nhất là hòa điểm với người trình diễn ở phần còn lại của trò chơi trong ít nhất 20% số lần tung ra, chúng tôi từ từ di chuyển điểm bắt đầu ngược thời gian. Chúng tôi tiếp tục làm như vậy cho đến khi tác nhân chơi từ đầu trò chơi, mà không sử dụng bản demo nào cả, tại thời điểm đó, chúng tôi có một tác nhân được đào tạo RL đánh bại hoặc hòa với chuyên gia con người trong toàn bộ trò chơi.

Bằng cách từ từ di chuyển trạng thái bắt đầu của chúng ta từ cuối phần trình diễn đến phần đầu, chúng ta đảm bảo rằng tại mọi thời điểm, tác nhân phải đối mặt với một vấn đề khám phá dễ dàng mà nó có khả năng thành công, vì nó đã học cách giải quyết hầu hết các trò chơi còn lại. Chúng ta có thể diễn giải việc giải quyết vấn đề RL theo cách này như một dạng  lập trình động (mở trong cửa sổ mới). Nếu cần một chuỗi hành động cụ thể gồm N hành động để đạt được phần thưởng, chuỗi này có thể được học trong thời gian tuyến tính theo N, thay vì theo cấp số nhân.

Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ

Bắt đầu các tập phim bằng cách thiết lập lại từ trạng thái trình diễn đã được  đề xuất trước đó (mở trong cửa sổ mới), nhưng không xây dựng một chương trình giảng dạy dần dần đưa trạng thái bắt đầu trở lại từ cuối phần trình diễn đến đầu. Khi kết hợp với việc học bắt chước,  một số (mở trong cửa sổ mới) các nhà nghiên cứu (mở trong cửa sổ mới) báo cáo lợi ích từ cách tiếp cận này. Đối với trường hợp sử dụng của chúng tôi, chúng tôi thấy chương trình giảng dạy như vậy cực kỳ quan trọng để có được lợi ích từ việc trình diễn.

So sánh với các phương pháp tiếp cận dựa trên sự bắt chước

Gần đây, DeepMind đã cho thấy một tác nhân học Montezuma's Revenge bằng cách bắt chước học từ một cuộc trình diễn;  một cách tiếp cận (mở trong cửa sổ mới) đào tạo một tác nhân để đạt được các trạng thái tương tự như trong video YouTube về Montezuma's Revenge và  một kỹ thuật khác (mở trong cửa sổ mới) kết hợp một phiên bản tinh vi của Q-learning với việc tối đa hóa khả năng thực hiện các hành động trong một cuộc trình diễn. Ưu điểm của các phương pháp này là chúng không yêu cầu kiểm soát nhiều đối với môi trường như kỹ thuật của chúng tôi: chúng không đặt lại môi trường về các trạng thái khác ngoài trạng thái bắt đầu của trò chơi và chúng không giả định quyền truy cập vào các trạng thái trò chơi đầy đủ gặp phải trong cuộc trình diễn. Phương pháp của chúng tôi khác ở chỗ tối ưu hóa trực tiếp những gì chúng tôi quan tâm — điểm số trò chơi, thay vì bắt tác nhân bắt chước cuộc trình diễn; do đó, phương pháp của chúng tôi sẽ không quá phù hợp với một cuộc trình diễn có khả năng không tối ưu và có thể mang lại lợi ích trong các trò chơi nhiều người chơi, nơi chúng tôi muốn tối ưu hóa hiệu suất so với các đối thủ khác chứ không chỉ đối thủ trong cuộc trình diễn.

Những thách thức còn lại

Mặc dù việc học từng bước do tác nhân của chúng tôi thực hiện đơn giản hơn nhiều so với việc học chơi từ đầu, nhưng vẫn không hề dễ dàng. Một thách thức mà tác nhân RL của chúng tôi phải đối mặt là nó thường không thể đạt được trạng thái chính xác từ sau đó trong bản demo khi nó bắt đầu từ trạng thái trước đó. Điều này là do tác nhân chơi trò chơi ở một khung hình khác với những gì chúng tôi đã sử dụng để ghi lại bản trình diễn, nhưng cũng là do tính ngẫu nhiên trong các hành động khiến nó rất khó có thể tái tạo chính xác bất kỳ chuỗi hành động cụ thể nào. Do đó, tác nhân sẽ cần có khả năng khái quát hóa giữa các trạng thái rất giống nhau, nhưng không giống hệt nhau. Chúng tôi thấy rằng điều này hiệu quả đối với Montezuma's Revenge, nhưng kém hiệu quả hơn nhiều đối với một số trò chơi Atari khác mà chúng tôi đã thử, như Gravitar và Pitfall. Một lý do cho điều này có thể là những trò chơi sau này yêu cầu giải quyết một vấn đề về thị lực khó hơn: chúng tôi thấy những trò chơi này khó chơi từ màn hình được lấy mẫu xuống và chúng tôi thấy một số cải tiến khi sử dụng các chính sách mạng nơ-ron lớn hơn và sâu hơn.

Một thách thức khác mà chúng tôi gặp phải là các thuật toán RL chuẩn như gradient chính sách đòi hỏi phải cân bằng cẩn thận giữa khám phá và khai thác: nếu hành động của tác nhân quá ngẫu nhiên, nó sẽ mắc quá nhiều lỗi để có thể đạt được điểm cuối cùng cần thiết khi bắt đầu từ đầu trò chơi; nếu hành động quá xác định, tác nhân sẽ ngừng học vì nó không khám phá các hành động thay thế. Do đó, để đạt được kết quả được báo cáo trên Montezuma's Revenge, cần phải điều chỉnh cẩn thận hệ số tiền thưởng entropy được sử dụng trong PPO, kết hợp với các siêu tham số khác như tốc độ học và tỷ lệ phần thưởng. Đối với một số trò chơi khác như Gravitar và Pitfall, chúng tôi không thể tìm thấy siêu tham số nào phù hợp để đào tạo toàn bộ chương trình giảng dạy. Thuật toán cũng vẫn cho thấy sự thay đổi ngẫu nhiên đáng kể từ lần chạy này sang lần chạy khác, với một số lần chạy không hội tụ đối với Montezuma's Revenge. Chúng tôi hy vọng rằng những tiến bộ trong tương lai của RL sẽ tạo ra các thuật toán mạnh mẽ hơn đối với nhiễu ngẫu nhiên và sự lựa chọn siêu tham số.

Cuối cùng, giống như thường xảy ra trong học tăng cường, chúng tôi thấy rằng chính sách mạng nơ-ron được đào tạo của chúng tôi vẫn chưa khái quát hóa ở cấp độ của một người chơi.  Một phương pháp (mở trong cửa sổ mới) để kiểm tra khả năng khái quát hóa là làm nhiễu loạn chính sách bằng cách làm cho các hành động  trở nên cố định  và lặp lại hành động cuối cùng với xác suất 0,25 ở mọi khung hình. Sử dụng phương pháp đánh giá này, chính sách đã được đào tạo của chúng tôi đạt được điểm trung bình là 10.000 trên Montezuma's Revenge. Ngoài ra, chúng tôi có thể thực hiện các hành động ngẫu nhiên với xác suất 0,01 (lặp lại trong 4 bước bỏ qua khung hình), dẫn đến điểm trung bình là 8.400 cho chính sách của chúng tôi. Theo giai thoại, chúng tôi thấy rằng những nhiễu loạn như vậy cũng làm giảm đáng kể điểm của người chơi trên Montezuma's Revenge, nhưng ở mức độ ít hơn. Theo như chúng tôi biết, kết quả của chúng tôi khi sử dụng các chính sách nhiễu loạn vẫn tốt hơn tất cả các kết quả đã công bố trước đây. Làm nhiễu loạn chính sách đã học bằng cách bắt đầu với từ 0 đến 30 lần không thực hiện ngẫu nhiên không làm giảm đáng kể kết quả, với phần lớn các lần triển khai đạt được điểm cuối cùng đạt được trong bản trình diễn của chúng tôi.

Trong khi hầu hết các công trình trước đây về việc học từ các cuộc trình diễn tập trung vào  việc bắt chước , khuyến khích hành vi giống hệt với hành vi được thấy trong cuộc trình diễn, chúng tôi đã chỉ ra rằng có thể đạt được kết quả tốt bằng cách tối ưu hóa lợi nhuận trực tiếp. Điều này cho phép tác nhân đi chệch khỏi hành vi đã trình diễn, cho phép nó tìm ra các giải pháp mới và thú vị mà người trình diễn có thể chưa từng cân nhắc. Bằng cách đào tạo trên một chương trình giảng dạy gồm các nhiệm vụ phụ, được tạo ra bằng cách thiết lập lại từ các trạng thái trình diễn, chúng tôi đã sử dụng kỹ thuật này để giải quyết một vấn đề học tăng cường khó đòi hỏi các chuỗi hành động dài.

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !