Học cách trả thù của Montezuma từ một cuộc biểu tình duy nhất

Hãy xem xét một trò chơi thực hiện một chuỗi chính xác N hành động để trải nghiệm phần thưởng đầu tiên. Nếu mỗi hành động đó được thực hiện với xác suất cố định, một tác nhân ngẫu nhiên sẽ cần chơi trò chơi trong khoảng thời gian được chia tỷ lệ theo exp(N) trước khi có thể mong đợi trải nghiệm phần thưởng đầu tiên.

Ví dụ, trong trường hợp của Montezuma's Revenge, xác suất lấy được chìa khóa đầu tiên có thể được phân tích như sau

p(lấy chìa khóa) = p(xuống thang 1) * p(xuống dây thừng) * p(xuống thang 2) * p(nhảy qua đầu lâu) * p(lên thang 3).

Bằng cách nhân N của các xác suất này với nhau, chúng ta sẽ có xác suất p(get key) kết quả nhỏ hơn theo cấp số nhân so với bất kỳ xác suất đầu vào riêng lẻ nào. Các thuật toán có tỷ lệ theo cấp số nhân sẽ bị hỏng rất nhanh khi vấn đề của bạn trở nên khó khăn hơn, điều này hạn chế các nhiệm vụ mà các kỹ thuật học tăng cường hiện tại có thể giải quyết.

Mặc dù các phương pháp RL không mô hình gặp khó khăn khi tìm chuỗi hành động dài, nhưng chúng hoạt động tốt với các chuỗi ngắn hơn. Nhận thức chính của chúng tôi là chúng tôi có thể làm cho nhiệm vụ của mình dễ giải quyết hơn bằng cách phân tích nó thành một chương trình giảng dạy gồm các nhiệm vụ phụ đòi hỏi chuỗi hành động ngắn; chúng tôi xây dựng chương trình giảng dạy này bằng cách bắt đầu mỗi tập RL từ trạng thái trình diễn. Một biến thể của cùng một ý tưởng đã được sử dụng gần đây để tạo chương trình giảng dạy ngược cho robot (mở trong cửa sổ mới), trong đó chương trình giảng dạy được xây dựng bằng cách liên tục làm nhiễu loạn một tập hợp các trạng thái ban đầu bằng các hành động ngẫu nhiên và chọn các trạng thái kết quả có mức độ khó phù hợp.

Cách tiếp cận của chúng tôi hoạt động bằng cách để mỗi tập RL bắt đầu từ một trạng thái trong một bản trình diễn đã ghi lại trước đó. Vào giai đoạn đầu của quá trình đào tạo, tác nhân bắt đầu mọi tập gần cuối bản trình diễn. Khi tác nhân có thể đánh bại hoặc ít nhất là hòa điểm với người trình diễn ở phần còn lại của trò chơi trong ít nhất 20% số lần tung ra, chúng tôi từ từ di chuyển điểm bắt đầu ngược thời gian. Chúng tôi tiếp tục làm như vậy cho đến khi tác nhân chơi từ đầu trò chơi, mà không sử dụng bản demo nào cả, tại thời điểm đó, chúng tôi có một tác nhân được đào tạo RL đánh bại hoặc hòa với chuyên gia con người trong toàn bộ trò chơi.

Bằng cách từ từ di chuyển trạng thái bắt đầu của chúng ta từ cuối phần trình diễn đến phần đầu, chúng ta đảm bảo rằng tại mọi thời điểm, tác nhân phải đối mặt với một vấn đề khám phá dễ dàng mà nó có khả năng thành công, vì nó đã học cách giải quyết hầu hết các trò chơi còn lại. Chúng ta có thể diễn giải việc giải quyết vấn đề RL theo cách này như một dạng lập trình động (mở trong cửa sổ mới). Nếu cần một chuỗi hành động cụ thể gồm N hành động để đạt được phần thưởng, chuỗi này có thể được học trong thời gian tuyến tính theo N, thay vì theo cấp số nhân.

Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ

Bắt đầu các tập phim bằng cách thiết lập lại từ trạng thái trình diễn đã được đề xuất trước đó (mở trong cửa sổ mới), nhưng không xây dựng một chương trình giảng dạy dần dần đưa trạng thái bắt đầu trở lại từ cuối phần trình diễn đến đầu. Khi kết hợp với việc học bắt chước, một số (mở trong cửa sổ mới) các nhà nghiên cứu (mở trong cửa sổ mới) báo cáo lợi ích từ cách tiếp cận này. Đối với trường hợp sử dụng của chúng tôi, chúng tôi thấy chương trình giảng dạy như vậy cực kỳ quan trọng để có được lợi ích từ việc trình diễn.

So sánh với các phương pháp tiếp cận dựa trên sự bắt chước

Gần đây, DeepMind đã cho thấy một tác nhân học Montezuma's Revenge bằng cách bắt chước học từ một cuộc trình diễn; một cách tiếp cận (mở trong cửa sổ mới) đào tạo một tác nhân để đạt được các trạng thái tương tự như trong video YouTube về Montezuma's Revenge và một kỹ thuật khác (mở trong cửa sổ mới) kết hợp một phiên bản tinh vi của Q-learning với việc tối đa hóa khả năng thực hiện các hành động trong một cuộc trình diễn. Ưu điểm của các phương pháp này là chúng không yêu cầu kiểm soát nhiều đối với môi trường như kỹ thuật của chúng tôi: chúng không đặt lại môi trường về các trạng thái khác ngoài trạng thái bắt đầu của trò chơi và chúng không giả định quyền truy cập vào các trạng thái trò chơi đầy đủ gặp phải trong cuộc trình diễn. Phương pháp của chúng tôi khác ở chỗ tối ưu hóa trực tiếp những gì chúng tôi quan tâm — điểm số trò chơi, thay vì bắt tác nhân bắt chước cuộc trình diễn; do đó, phương pháp của chúng tôi sẽ không quá phù hợp với một cuộc trình diễn có khả năng không tối ưu và có thể mang lại lợi ích trong các trò chơi nhiều người chơi, nơi chúng tôi muốn tối ưu hóa hiệu suất so với các đối thủ khác chứ không chỉ đối thủ trong cuộc trình diễn.

Những thách thức còn lại

Mặc dù việc học từng bước do tác nhân của chúng tôi thực hiện đơn giản hơn nhiều so với việc học chơi từ đầu, nhưng vẫn không hề dễ dàng. Một thách thức mà tác nhân RL của chúng tôi phải đối mặt là nó thường không thể đạt được trạng thái chính xác từ sau đó trong bản demo khi nó bắt đầu từ trạng thái trước đó. Điều này là do tác nhân chơi trò chơi ở một khung hình khác với những gì chúng tôi đã sử dụng để ghi lại bản trình diễn, nhưng cũng là do tính ngẫu nhiên trong các hành động khiến nó rất khó có thể tái tạo chính xác bất kỳ chuỗi hành động cụ thể nào. Do đó, tác nhân sẽ cần có khả năng khái quát hóa giữa các trạng thái rất giống nhau, nhưng không giống hệt nhau. Chúng tôi thấy rằng điều này hiệu quả đối với Montezuma's Revenge, nhưng kém hiệu quả hơn nhiều đối với một số trò chơi Atari khác mà chúng tôi đã thử, như Gravitar và Pitfall. Một lý do cho điều này có thể là những trò chơi sau này yêu cầu giải quyết một vấn đề về thị lực khó hơn: chúng tôi thấy những trò chơi này khó chơi từ màn hình được lấy mẫu xuống và chúng tôi thấy một số cải tiến khi sử dụng các chính sách mạng nơ-ron lớn hơn và sâu hơn.

Một thách thức khác mà chúng tôi gặp phải là các thuật toán RL chuẩn như gradient chính sách đòi hỏi phải cân bằng cẩn thận giữa khám phá và khai thác: nếu hành động của tác nhân quá ngẫu nhiên, nó sẽ mắc quá nhiều lỗi để có thể đạt được điểm cuối cùng cần thiết khi bắt đầu từ đầu trò chơi; nếu hành động quá xác định, tác nhân sẽ ngừng học vì nó không khám phá các hành động thay thế. Do đó, để đạt được kết quả được báo cáo trên Montezuma's Revenge, cần phải điều chỉnh cẩn thận hệ số tiền thưởng entropy được sử dụng trong PPO, kết hợp với các siêu tham số khác như tốc độ học và tỷ lệ phần thưởng. Đối với một số trò chơi khác như Gravitar và Pitfall, chúng tôi không thể tìm thấy siêu tham số nào phù hợp để đào tạo toàn bộ chương trình giảng dạy. Thuật toán cũng vẫn cho thấy sự thay đổi ngẫu nhiên đáng kể từ lần chạy này sang lần chạy khác, với một số lần chạy không hội tụ đối với Montezuma's Revenge. Chúng tôi hy vọng rằng những tiến bộ trong tương lai của RL sẽ tạo ra các thuật toán mạnh mẽ hơn đối với nhiễu ngẫu nhiên và sự lựa chọn siêu tham số.

Cuối cùng, giống như thường xảy ra trong học tăng cường, chúng tôi thấy rằng chính sách mạng nơ-ron được đào tạo của chúng tôi vẫn chưa khái quát hóa ở cấp độ của một người chơi. Một phương pháp (mở trong cửa sổ mới) để kiểm tra khả năng khái quát hóa là làm nhiễu loạn chính sách bằng cách làm cho các hành động trở nên cố định và lặp lại hành động cuối cùng với xác suất 0,25 ở mọi khung hình. Sử dụng phương pháp đánh giá này, chính sách đã được đào tạo của chúng tôi đạt được điểm trung bình là 10.000 trên Montezuma's Revenge. Ngoài ra, chúng tôi có thể thực hiện các hành động ngẫu nhiên với xác suất 0,01 (lặp lại trong 4 bước bỏ qua khung hình), dẫn đến điểm trung bình là 8.400 cho chính sách của chúng tôi. Theo giai thoại, chúng tôi thấy rằng những nhiễu loạn như vậy cũng làm giảm đáng kể điểm của người chơi trên Montezuma's Revenge, nhưng ở mức độ ít hơn. Theo như chúng tôi biết, kết quả của chúng tôi khi sử dụng các chính sách nhiễu loạn vẫn tốt hơn tất cả các kết quả đã công bố trước đây. Làm nhiễu loạn chính sách đã học bằng cách bắt đầu với từ 0 đến 30 lần không thực hiện ngẫu nhiên không làm giảm đáng kể kết quả, với phần lớn các lần triển khai đạt được điểm cuối cùng đạt được trong bản trình diễn của chúng tôi.

Trong khi hầu hết các công trình trước đây về việc học từ các cuộc trình diễn tập trung vào việc bắt chước , khuyến khích hành vi giống hệt với hành vi được thấy trong cuộc trình diễn, chúng tôi đã chỉ ra rằng có thể đạt được kết quả tốt bằng cách tối ưu hóa lợi nhuận trực tiếp. Điều này cho phép tác nhân đi chệch khỏi hành vi đã trình diễn, cho phép nó tìm ra các giải pháp mới và thú vị mà người trình diễn có thể chưa từng cân nhắc. Bằng cách đào tạo trên một chương trình giảng dạy gồm các nhiệm vụ phụ, được tạo ra bằng cách thiết lập lại từ các trạng thái trình diễn, chúng tôi đã sử dụng kỹ thuật này để giải quyết một vấn đề học tăng cường khó đòi hỏi các chuỗi hành động dài.

Họ tên (*)	Số điện thoại (*)
Email (*)	Dịch vụ

Học cách trả thù của Montezuma từ một cuộc biểu tình duy nhất

Khám phá và học tập

Tại sao việc khám phá lại khó khăn

Đơn giản hóa việc khám phá bằng các cuộc biểu tình

So sánh với các phương pháp tiếp cận dựa trên sự bắt chước

Những thách thức còn lại

Bài liên quan

Hệ thống phân cấp hướng dẫn: Đào tạo LLM để ưu tiên các…

Trình Tạo Bài Hát Trên Cửa Hàng GPT: Công Cụ Mới Mẻ Cho…

Các mô hình tạo video như trình mô phỏng thế giới

60+ Lời nhắc ChatGPT cho các bài đăng hấp dẫn trên mạng xã…

Cải thiện lý luận toán học bằng cách giám sát quy trình

Liệu ChatGPT có thay thế được người viết nội dung không?

Đầu vào dân chủ cho AI

AI trong kinh doanh 2025: Vai trò của ChatGPT trong những đổi mới…

GPT là GPT: Một cái nhìn ban đầu về tiềm năng tác động…

Cách đổi Mật khẩu Chat GPT - Hướng dẫn đổi Pass Chat GPT 100% Thành công

Hướng dẫn Cách đăng nhập Chat GPT Nhanh nhất | Có hỗ trợ Miễn phí qua Teamview-Ultraview

Chat GPT Plus là gì? So sánh Chat GPT Plus với Chat GPT Miễn phí

Chat GPT bị giới hạn giải thích vì sao và cách khắc phục

Chat GPT là gì ? Cách đăng Ký Chat GPT Miễn Phí tại Việt Nam

AI trong kinh doanh 2025: Vai trò của ChatGPT trong những đổi mới trong tương lai

GPT là GPT: Một cái nhìn ban đầu về tiềm năng tác động của các mô hình ngôn ngữ lớn lên thị trường lao động

Có gì mới trong ChatGPT vào năm 2025?

GPT-4

ChatGPT đang thay đổi cách chúng ta viết?

Point-E: Một hệ thống tạo ra các đám mây điểm 3D từ các lời nhắc phức tạp

Chatgpt sẽ ảnh hưởng đến SEO như thế nào

Luật mở rộng cho mô hình phần thưởng tối ưu hóa quá mức

Trò chuyện GPT-4 - Tất cả những gì bạn cần biết về AI mạnh mẽ này

Giới thiệu Whisper

Chế độ nghiên cứu sâu ChatGPT là gì?

Đào tạo hiệu quả các mô hình ngôn ngữ để điền vào giữa

ChatGPT 2025: AI Thế Hệ Mới Sẵn Sàng Thay Đổi Ngành Viết Nội Dung

DALL·E 2 biện pháp giảm thiểu trước khi đào tạo

Cập nhật Big ChatGPT năm 2025: Cách mạng hóa tiếp thị kỹ thuật số với AI tiên tiến

Học chơi Minecraft với Video PreTraining

Chat GPT

Trí tuệ nhân tạo AI

Đăng ký tư vấn