zalo
Chat ngay

Điểm chuẩn Procgen

Chúng tôi đang phát hành Procgen Benchmark, 16 môi trường được tạo theo thủ tục dễ sử dụng, cung cấp thước đo trực tiếp về tốc độ mà tác nhân học tăng cường học được các kỹ năng tổng quát

Bắt đầu

đập mạnh
 
123456789101112
1
$ pip install procgen # install
2
$ python -m procgen.interactive --env-name starpilot # human
3
$ python <<EOF # random AI agent
4
import gym
5
env = gym.make('procgen:procgen-coinrun-v0')
6
obs = env.reset()
7
while True:
8
obs, rew, done, info = env.step(env.action_space.sample())
9
env.render()
10
if done:
11
break
12
EOF
Sử dụng môi trường này rất dễ dàng dù bạn là con người hay AI:

Chúng tôi thấy rằng tất cả các môi trường Procgen đều yêu cầu đào tạo ở 500–1000 cấp độ khác nhau trước khi chúng có thể khái quát hóa thành các cấp độ mới, điều này cho thấy các chuẩn mực RL tiêu chuẩn cần có nhiều sự đa dạng hơn trong mỗi môi trường. Procgen Benchmark đã trở thành nền tảng nghiên cứu tiêu chuẩn được nhóm OpenAI RL sử dụng và chúng tôi hy vọng rằng nó sẽ thúc đẩy cộng đồng trong việc tạo ra các thuật toán RL tốt hơn.

Sự đa dạng của môi trường là chìa khóa

Trong (mở trong cửa sổ mới) nhiều môi trường (mở trong cửa sổ mới), người ta đã quan sát thấy rằng các tác nhân có thể quá phù hợp với các tập huấn luyện lớn đáng kể. Bằng chứng này nêu lên khả năng quá phù hợp tràn ngập các chuẩn mực cổ điển như  Arcade Learning Environment (mở trong cửa sổ mới), từ lâu đã được coi là tiêu chuẩn vàng trong học tăng cường (RL). Trong khi tính đa dạng giữa các trò chơi khác nhau trong ALE là một trong những điểm mạnh nhất của chuẩn mực này, thì việc ít chú trọng vào khái quát hóa lại là một nhược điểm đáng kể. Trong mỗi trò chơi, câu hỏi phải được đặt ra là: các tác nhân có học một cách mạnh mẽ một kỹ năng có liên quan hay chúng chỉ ghi nhớ sơ bộ các quỹ đạo cụ thể?

CoinRun  được thiết kế để giải quyết chính xác vấn đề này, bằng cách sử dụng thế hệ thủ tục để xây dựng các tập hợp riêng biệt các cấp độ đào tạo và cấp độ kiểm tra. Mặc dù CoinRun đã giúp chúng tôi định lượng tốt hơn khái quát hóa trong RL, nhưng nó vẫn chỉ là một môi trường duy nhất. Có khả năng CoinRun không đại diện đầy đủ cho nhiều thách thức mà các tác nhân RL phải đối mặt. Chúng tôi muốn những điều tốt nhất của cả hai thế giới: một chuẩn mực bao gồm nhiều môi trường đa dạng, mỗi môi trường về cơ bản đều yêu cầu khái quát hóa. Để đáp ứng nhu cầu này, chúng tôi đã tạo ra Procgen Benchmark. CoinRun hiện đóng vai trò là môi trường khai mạc trong Procgen Benchmark, đóng góp sự đa dạng của nó vào một tổng thể lớn hơn.

Công việc trước đây, bao gồm cả  Thử thách Tháp Chướng ngại vật (mở trong cửa sổ mới) và  khuôn khổ AI trò chơi điện tử nói chung (mở trong cửa sổ mới), cũng khuyến khích sử dụng thế hệ thủ tục để đánh giá tổng quát hóa tốt hơn trong RL. Chúng tôi đã thiết kế các môi trường theo tinh thần tương tự, với hai môi trường Procgen lấy cảm hứng trực tiếp từ  công việc dựa trên GVGAI (mở trong cửa sổ mới). Các môi trường khác như Dota và StarCraft cũng cung cấp nhiều sự phức tạp cho từng môi trường, nhưng những môi trường này khó có thể lặp lại nhanh chóng (và thậm chí còn khó hơn khi sử dụng nhiều hơn một môi trường như vậy cùng một lúc). Với Procgen Benchmark, chúng tôi phấn đấu vì tất cả những điều sau: sự tiện lợi khi thử nghiệm, tính đa dạng cao trong các môi trường và tính đa dạng cao giữa các môi trường.

Điểm chuẩn Procgen

Procgen Benchmark bao gồm 16 môi trường độc đáo được thiết kế để đo cả hiệu quả mẫu và khái quát hóa trong học tăng cường. Điểm chuẩn này lý tưởng để đánh giá khái quát hóa vì có thể tạo ra các tập huấn luyện và kiểm tra riêng biệt trong mỗi môi trường. Điểm chuẩn này cũng rất phù hợp để đánh giá hiệu quả mẫu vì mọi môi trường đều đặt ra những thách thức đa dạng và hấp dẫn đối với các tác nhân RL. Tính đa dạng nội tại của môi trường đòi hỏi các tác nhân phải học các chính sách mạnh mẽ; việc quá khớp với các vùng hẹp trong không gian trạng thái sẽ không đủ. Nói cách khác, khả năng khái quát hóa trở thành một thành phần không thể thiếu của thành công khi các tác nhân phải đối mặt với các cấp độ luôn thay đổi.

Nguyên tắc thiết kế

Chúng tôi đã thiết kế tất cả các môi trường Procgen để đáp ứng các tiêu chí sau:

+ Độ đa dạng cao : Logic tạo môi trường được trao quyền tự do tối đa, tuân theo các ràng buộc thiết kế cơ bản. Độ đa dạng trong các phân phối mức kết quả đặt ra cho các tác nhân những thách thức tổng quát có ý nghĩa.

+ Đánh giá nhanh : Độ khó của môi trường được hiệu chỉnh sao cho các tác nhân cơ bản đạt được tiến bộ đáng kể sau khi đào tạo trong 200M bước thời gian. Hơn nữa, môi trường được tối ưu hóa để thực hiện hàng nghìn bước mỗi giây trên một lõi CPU duy nhất, cho phép một đường ống thử nghiệm nhanh.

+ Độ khó có thể điều chỉnh : Tất cả các môi trường đều hỗ trợ hai cài đặt độ khó được hiệu chỉnh tốt: dễ và khó. Trong khi chúng tôi báo cáo kết quả bằng cách sử dụng cài đặt độ khó khó, chúng tôi cung cấp cài đặt độ khó dễ cho những người có khả năng tính toán hạn chế. Môi trường dễ yêu cầu khoảng một phần tám tài nguyên để đào tạo.

+ Nhấn mạnh vào Nhận dạng thị giác và Kiểm soát vận động : Theo tiền lệ, môi trường mô phỏng phong cách của nhiều trò chơi Atari và Gym Retro. Thực hiện tốt chủ yếu phụ thuộc vào việc xác định các tài sản chính trong không gian quan sát và thực hiện các phản ứng vận động cấp thấp phù hợp.

Đánh giá tổng quát

Chúng tôi đã đánh giá được mức độ khó khăn của việc khái quát hóa RL trong khi tiến hành Cuộc  thi Retro , vì các tác nhân liên tục không thể khái quát hóa từ dữ liệu hạn chế trong bộ dữ liệu đào tạo. Sau đó, các thí nghiệm CoinRun của chúng tôi đã vẽ nên một bức tranh rõ ràng hơn về cuộc đấu tranh khái quát hóa của các tác nhân. Chúng tôi hiện đã mở rộng các kết quả đó, tiến hành nghiên cứu kỹ lưỡng nhất của chúng tôi về khái quát hóa RL cho đến nay bằng cách sử dụng tất cả 16 môi trường trong Procgen Benchmark.

Đầu tiên, chúng tôi đo lường cách thức kích thước của tập huấn luyện tác động đến khái quát hóa. Trong mỗi môi trường, chúng tôi tạo ra các tập huấn luyện có kích thước từ 100 đến 100.000 cấp độ. Chúng tôi đã huấn luyện các tác nhân trong 200M bước thời gian trên các cấp độ này bằng cách sử dụng  Proximal Policy Optimization và chúng tôi đã đo lường hiệu suất trên các cấp độ kiểm tra chưa từng thấy.

Chúng tôi thấy rằng các tác nhân quá phù hợp với các tập huấn luyện nhỏ trong hầu hết mọi môi trường. Trong một số trường hợp, các tác nhân cần truy cập tới 10.000 cấp độ để thu hẹp khoảng cách khái quát hóa. Chúng tôi cũng thấy một xu hướng kỳ lạ xuất hiện trong nhiều môi trường: vượt qua một ngưỡng nhất định, hiệu suất huấn luyện sẽ cải thiện khi các tập huấn luyện phát triển! Điều này trái ngược với các xu hướng được tìm thấy trong học có giám sát, trong đó hiệu suất huấn luyện thường giảm theo quy mô của tập huấn luyện. Chúng tôi tin rằng sự gia tăng hiệu suất huấn luyện này xuất phát từ chương trình giảng dạy ngầm định do một tập hợp các cấp độ đa dạng cung cấp. Một tập huấn luyện lớn hơn có thể cải thiện hiệu suất huấn luyện nếu tác nhân học cách khái quát hóa  ngay cả trên các cấp độ trong tập huấn luyện . Trước đây, chúng tôi đã nhận thấy hiệu ứng này với CoinRun và thấy rằng nó cũng thường xảy ra trong nhiều môi trường Procgen.

Một sự cắt bỏ với mức độ xác định

Vào thời điểm kiểm tra, chúng tôi loại bỏ tính quyết định trong trình tự các cấp độ, thay vào đó là chọn trình tự cấp độ một cách ngẫu nhiên. Chúng tôi thấy rằng các tác nhân trở nên thành thạo trong một số cấp độ đào tạo đầu tiên trong hầu hết các trò chơi, tạo ra ảo giác về sự tiến bộ có ý nghĩa. Tuy nhiên, hiệu suất kiểm tra chứng minh rằng trên thực tế, các tác nhân hầu như không học được gì về phân phối cấp độ cơ bản. Chúng tôi tin rằng khoảng cách lớn này giữa đào tạo và hiệu suất kiểm tra đáng được nêu bật. Nó tiết lộ một lỗi ẩn quan trọng trong đào tạo trên các môi trường tuân theo trình tự cấp độ cố định. Những kết quả này cho thấy việc sử dụng các phân phối môi trường đa dạng là điều cần thiết như thế nào khi đào tạo và đánh giá các tác nhân RL.

Các bước tiếp theo

Chúng tôi hy vọng nhiều hiểu biết sâu sắc thu được từ tiêu chuẩn này có thể áp dụng trong các bối cảnh phức tạp hơn và chúng tôi rất vui mừng khi sử dụng những môi trường mới này để thiết kế các tác nhân có năng lực và hiệu quả hơn.

Xem thêm: mua tài khoản ChatGPT Plus và tài khoản ChatGPT 4 chính hãng giá rẻ 

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !