zalo
Chat ngay

Phòng tập thể dục Retro

 

Chúng tôi đang phát hành phiên bản đầy đủ của  Gym Retro, một nền tảng nghiên cứu tăng cường học tập trên trò chơi. Điều này đưa số lượng trò chơi được phát hành công khai của chúng tôi từ khoảng 70 trò chơi Atari và 30 trò chơi Sega lên hơn 1.000 trò chơi trên nhiều trình giả lập hỗ trợ. Chúng tôi cũng đang phát hành công cụ mà chúng tôi sử dụng để thêm trò chơi mới vào nền tảng.

Chúng tôi sử dụng Gym Retro để tiến hành nghiên cứu về thuật toán RL và nghiên cứu khái quát hóa. Nghiên cứu trước đây trong RL chủ yếu tập trung vào việc tối ưu hóa các tác nhân để giải quyết các nhiệm vụ đơn lẻ. Với Gym Retro, chúng tôi có thể nghiên cứu khả năng khái quát hóa giữa các trò chơi có khái niệm tương tự nhưng giao diện khác nhau.

Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ

Bản phát hành này bao gồm các trò chơi từ Sega Genesis và Sega Master System, và các máy chơi game NES, SNES và Game Boy của Nintendo. Nó cũng bao gồm hỗ trợ sơ bộ cho Sega Game Gear, Nintendo Game Boy Color, Nintendo Game Boy Advance và NEC TurboGrafx. Một số tích hợp trò chơi đã phát hành, bao gồm các trò chơi trong thư  data/experimental mục Gym Retro, đang ở trạng thái beta — vui lòng dùng thử và cho chúng tôi biết nếu bạn gặp bất kỳ lỗi nào. Do quy mô lớn của các thay đổi liên quan, mã sẽ chỉ khả dụng trên một  nhánh(mở trong cửa sổ mới) tạm thời. Để tránh vi phạm quy định của thí sinh, chúng tôi sẽ không sáp nhập nhánh cho đến khi cuộc thi kết thúc.

Cuộc thi Retro đang diễn ra (mở trong cửa sổ mới) (kết thúc sau vài tuần nữa!) và  báo cáo kỹ thuật gần đây của chúng tôi(mở trong cửa sổ mới) tập trung vào vấn đề dễ hơn là khái quát hóa giữa các cấp độ khác nhau của cùng một trò chơi (Sonic The Hedgehog™). Bộ dữ liệu Gym Retro đầy đủ đưa ý tưởng này đi xa hơn và giúp nghiên cứu vấn đề khó hơn là khái quát hóa giữa các trò chơi khác nhau. Quy mô của bộ dữ liệu và độ khó của từng trò chơi khiến đây trở thành một thách thức to lớn và chúng tôi mong muốn được chia sẻ tiến trình nghiên cứu của mình trong năm tới. Chúng tôi cũng hy vọng rằng một số giải pháp do những người tham gia Cuộc thi Retro phát triển có thể được mở rộng và áp dụng cho bộ dữ liệu Gym Retro đầy đủ.

Công cụ tích hợp

Chúng tôi cũng đang phát hành công cụ mà chúng tôi sử dụng để tích hợp các trò chơi mới. Với điều kiện bạn có ROM cho trò chơi, công cụ này cho phép bạn dễ dàng tạo trạng thái lưu, tìm vị trí bộ nhớ và thiết kế các tình huống mà các tác nhân học tăng cường sau đó có thể giải quyết. Chúng tôi đã viết  hướng dẫn tích hợp dành cho những người muốn bổ sung hỗ trợ cho trò chơi mới.

Công cụ tích hợp cũng hỗ trợ ghi và phát các tệp phim lưu tất cả các đầu vào nút vào trò chơi. Các tệp này nhỏ vì chúng chỉ cần trạng thái bắt đầu và trình tự nhấn nút, trái ngược với việc lưu trữ từng khung hình của đầu ra. Các tệp phim như thế này hữu ích để trực quan hóa những gì tác nhân học tăng cường của bạn đang làm cũng như lưu trữ đầu vào của con người để sử dụng làm dữ liệu đào tạo.

Nông trại phần thưởng

Trong quá trình phát triển Gym Retro, chúng tôi đã tìm thấy nhiều ví dụ về trò chơi mà tác nhân học cách cày để kiếm phần thưởng (được định nghĩa là sự gia tăng điểm trong trò chơi) thay vì hoàn thành nhiệm vụ ngầm định. Trong các clip trên, các nhân vật trong  Cheese Cat-Astrophe (trái)  và  Blades of Vengeance (phải)  bị mắc kẹt trong vòng lặp vô hạn vì họ có thể nhanh chóng tích lũy phần thưởng theo cách đó. Điều này làm nổi bật một  hiện tượng chúng ta đã thảo luận trước đây: các hàm phần thưởng tương đối đơn giản mà chúng ta đưa ra cho các thuật toán học tăng cường hiện đại, ví dụ như bằng cách tối đa hóa điểm số trong trò chơi, có thể dẫn đến các hành vi không mong muốn.

Đối với các trò chơi có phần thưởng dày đặc (thường xuyên và gia tăng) trong đó phần lớn độ khó đến từ việc cần thời gian phản ứng nhanh, các thuật toán học tăng cường như PPO hoạt động rất tốt.

Trong một trò chơi như Gradius (hình bên phải), bạn sẽ nhận được điểm cho mỗi kẻ thù mà bạn bắn, vì vậy, bạn có thể dễ dàng nhận được phần thưởng và bắt đầu học. Sống sót trong một trò chơi như thế này dựa trên khả năng né tránh kẻ thù của bạn, điều này không thành vấn đề đối với các thuật toán học tăng cường vì chúng chơi trò chơi từng khung hình một.

Đối với các trò chơi có phần thưởng thưa thớt hoặc yêu cầu lập kế hoạch trong hơn vài giây tới tương lai, các thuật toán hiện tại gặp khó khăn. Nhiều trò chơi trong tập dữ liệu Gym Retro có phần thưởng thưa thớt hoặc yêu cầu lập kế hoạch, do đó, việc giải quyết toàn bộ tập dữ liệu có thể sẽ yêu cầu các kỹ thuật mới chưa được phát triển.

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !