zalo
Chat ngay

Cuộc thi Retro

Chúng tôi đang phát động một cuộc thi học chuyển giao nhằm đánh giá khả năng khái quát hóa từ kinh nghiệm trước đó của thuật toán học tăng cường

Tại sao nó quan trọng

Trong nghiên cứu RL điển hình, các thuật toán được thử nghiệm trong cùng một môi trường nơi chúng được đào tạo, ưu tiên các thuật toán có khả năng ghi nhớ tốt và có nhiều siêu tham số. Thay vào đó, cuộc thi của chúng tôi thử nghiệm một thuật toán trên các cấp độ trò chơi điện tử chưa từng thấy trước đây. Cuộc thi này sử dụng Gym Retro, một nền tảng mới tích hợp các trò chơi cổ điển vào Gym, bắt đầu với 30 trò chơi SEGA Genesis.

Cuộc  thi OpenAI Retro cung cấp cho bạn một bộ cấp độ đào tạo từ loạt trò chơi Sonic The Hedgehog™ và chúng tôi đánh giá thuật toán của bạn trên một bộ cấp độ tùy chỉnh thử nghiệm mà chúng tôi đã tạo cho cuộc thi này. Cuộc thi sẽ diễn ra từ ngày 5 tháng 4 đến ngày 5 tháng 6. Để mọi người bắt đầu, chúng tôi sẽ phát hành các đường cơ sở hồi tưởng, cho thấy cách chạy một số thuật toán RL trên các nhiệm vụ của cuộc thi.
 
Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ!

Bạn có thể sử dụng bất kỳ môi trường hoặc tập dữ liệu nào bạn muốn khi đào tạo, nhưng khi thử nghiệm, bạn chỉ có khoảng 18 giờ (1 triệu bước thời gian) cho mỗi cấp độ chưa từng thấy trước đây. 18 giờ có vẻ là một khoảng thời gian dài để chơi một cấp độ trò chơi duy nhất, nhưng các thuật toán RL hiện tại hoạt động kém hơn nhiều so với con người khi xét đến ngân sách đào tạo này.

Điểm chuẩn âm thanh

Để mô tả chi tiết về chuẩn mực cũng như cung cấp một số kết quả cơ bản, chúng tôi sẽ phát hành báo cáo kỹ thuật:  Gotta Learn Fast: Chuẩn mực mới cho khái quát hóa trong RL. Báo cáo này chứa thông tin chi tiết về điểm chuẩn cũng như kết quả từ việc chạy Rainbow DQN(mở trong cửa sổ mới),  PPO và một thuật toán đoán ngẫu nhiên đơn giản gọi là JERK. JERK lấy mẫu các chuỗi hành động ngẫu nhiên theo cách được tối ưu hóa cho Sonic và khi quá trình đào tạo tiến triển, nó sẽ phát lại chuỗi hành động có điểm cao nhất thường xuyên hơn.

Chúng tôi thấy rằng chúng tôi có thể tăng đáng kể hiệu suất của PPO ở các cấp độ thử nghiệm bằng cách tận dụng kinh nghiệm từ các cấp độ đào tạo. Khi mạng được đào tạo trước ở các cấp độ đào tạo và tinh chỉnh ở các cấp độ thử nghiệm, hiệu suất của nó gần như tăng gấp đôi, khiến nó tốt hơn các đường cơ sở thay thế mạnh nhất. Mặc dù đây không phải là trường hợp đầu tiên được báo cáo về việc học chuyển giao thành công trong RL, nhưng điều này rất thú vị vì nó cho thấy rằng học chuyển giao có thể có tác động lớn và đáng tin cậy.

Nhưng chúng ta còn một chặng đường dài trước khi các thuật toán của chúng ta có thể sánh ngang với hiệu suất của con người. Như đã trình bày ở trên, sau hai giờ luyện tập ở các cấp độ đào tạo và một giờ chơi ở mỗi cấp độ kiểm tra, con người có thể đạt được điểm số cao hơn đáng kể so với các thuật toán RL, bao gồm cả các thuật toán thực hiện học chuyển giao.

Bản ghi âm Sonic

Chúng tôi đã tạo ra một  tập dữ liệu ghi âm của con người (mở trong cửa sổ mới) đánh bại các cấp độ Sonic được sử dụng trong Cuộc thi Retro. Những bản ghi âm này có thể được sử dụng để cho tác nhân bắt đầu chơi từ các điểm ngẫu nhiên được lấy mẫu từ quá trình của mỗi cấp độ, cho tác nhân tiếp xúc với nhiều khu vực mà nó có thể không nhìn thấy nếu nó chỉ bắt đầu từ đầu cấp độ. Các nhà nghiên cứu cũng có thể sử dụng những bản ghi âm này để cố gắng đào tạo các tác nhân học hỏi từ các cuộc trình diễn.

Phòng tập thể dục Retro Beta

Chúng tôi đang phát hành Gym Retro, một hệ thống để gói các trò chơi điện tử cổ điển thành môi trường RL. Bản phát hành sơ bộ này bao gồm 30 trò chơi SEGA Genesis từ  SEGA Mega Drive và Genesis Classics Steam Bundle(mở trong cửa sổ mới) cũng như 62 trò chơi Atari 2600 từ Môi trường học tập Arcade.

Môi trường học tập Arcade(mở trong cửa sổ mới), một bộ sưu tập các trò chơi Atari 2600 có giao diện để tăng cường học tập, đã là động lực chính cho nghiên cứu RL trong năm năm qua. Các trò chơi Atari này đa dạng và phức tạp hơn các chuẩn mực RL trước đây, được thiết kế để thử thách các kỹ năng vận động và khả năng giải quyết vấn đề của người chơi.

Phòng  tập thể dục Retro Beta sử dụng một máy chơi game hiện đại hơn Atari—SEGA Genesis—mở rộng số lượng và độ phức tạp của các trò chơi có sẵn cho nghiên cứu RL. Các trò chơi được tạo trên Genesis có xu hướng có nhiều cấp độ tương tự nhau ở một số chiều (vật lý, hình dạng vật thể) và khác nhau ở những chiều khác (bố cục, vật phẩm), khiến chúng trở thành nền tảng thử nghiệm tốt cho việc học chuyển giao. Chúng cũng có xu hướng phức tạp hơn các trò chơi Atari vì chúng khai thác phần cứng tốt hơn của Genesis (ví dụ, nó có RAM nhiều hơn Atari gấp 500 lần, phạm vi đầu vào điều khiển khả thi lớn hơn và hỗ trợ đồ họa tốt hơn).

Gym Retro được lấy cảm hứng từ  Môi trường học tập Retro nhưng được viết linh hoạt hơn RLE; ví dụ, trong Gym Retro, bạn có thể chỉ định định nghĩa môi trường thông qua các tệp JSON thay vì mã C++, giúp tích hợp các trò chơi mới dễ dàng hơn.

Gym Retro là nỗ lực thế hệ thứ hai của chúng tôi nhằm xây dựng một tập dữ liệu lớn về môi trường học tăng cường. Nó dựa trên một số ý tưởng giống như Universe từ cuối năm 2016, nhưng chúng tôi không thể có được kết quả tốt từ việc triển khai đó vì môi trường Universe chạy không đồng bộ, chỉ có thể chạy theo thời gian thực và thường không đáng tin cậy do phát hiện trạng thái trò chơi dựa trên màn hình. Gym Retro mở rộng mô hình của Arcade Learning Environment sang một tập hợp trò chơi tiềm năng lớn hơn nhiều.

Đôi khi, thuật toán có thể tìm ra lỗ hổng trong trò chơi. Ở đây, một chính sách được đào tạo PPO phát hiện ra rằng nó có thể vượt qua các bức tường của một cấp độ để di chuyển sang phải và đạt được điểm cao hơn—một ví dụ khác về cách các hàm phần thưởng cụ thể có thể dẫn đến việc các tác nhân AI thể hiện các hành vi kỳ lạ .

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !