.png)
Chúng tôi đang phát hành CoinRun, một môi trường đào tạo cung cấp số liệu đánh giá khả năng của một tác nhân trong việc chuyển giao kinh nghiệm của mình sang các tình huống mới và đã giúp làm rõ một vấn đề lâu dài (mở trong cửa sổ mới) câu đố (mở trong cửa sổ mới) trong học tăng cường. CoinRun đạt được sự cân bằng mong muốn về độ phức tạp: môi trường đơn giản hơn các trò chơi nền tảng truyền thống như Sonic the Hedgehog nhưng vẫn đặt ra thách thức tổng quát xứng đáng cho các thuật toán hiện đại.
Thách thức tổng quát
Việc khái quát hóa giữa các tác vụ vẫn còn khó khăn đối với các thuật toán học tăng cường sâu (RL) hiện đại. Mặc dù các tác nhân được đào tạo có thể giải quyết các tác vụ phức tạp, nhưng chúng vẫn gặp khó khăn trong việc chuyển giao kinh nghiệm của mình sang các môi trường mới. Mặc dù mọi người biết rằng các tác nhân RL có xu hướng quá phù hợp — tức là bám vào các chi tiết cụ thể của môi trường của chúng thay vì học các kỹ năng có thể khái quát hóa — các tác nhân RL vẫn được đánh giá chuẩn bằng cách đánh giá trên các môi trường mà chúng được đào tạo. Điều này giống như thử nghiệm trên tập đào tạo của bạn trong học có giám sát!
Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ với nhiều ưu đãi đặc biệt!
Công trình trước đây đã sử dụng chuẩn mực Sonic (mở trong cửa sổ mới), mê cung thế giới lưới được tạo theo thủ tục (mở trong cửa sổ mới)và khuôn khổ AI trò chơi điện tử nói chung (mở trong cửa sổ mới) để giải quyết vấn đề này. Trong mọi trường hợp, khái quát hóa được đo bằng cách đào tạo và kiểm tra các tác nhân trên các tập hợp cấp độ khác nhau. Các tác nhân được đào tạo trên chuẩn Sonic của chúng tôi rất tuyệt ở các cấp độ đào tạo nhưng lại hoạt động kém ở các cấp độ kiểm tra mà không có bất kỳ sự tinh chỉnh nào. Trong các màn trình diễn quá mức tương tự, các tác nhân được đào tạo trên các mê cung được tạo theo thủ tục đã học cách ghi nhớ một số lượng lớn các cấp độ đào tạo và các tác nhân GVG-AI hoạt động kém trong các cài đặt độ khó không được nhìn thấy trong quá trình đào tạo.
Luật chơi
CoinRun được thiết kế để dễ sử dụng với các thuật toán hiện có và mô phỏng phong cách của các trò chơi nền tảng như Sonic. Các cấp độ của CoinRun được tạo theo thủ tục (mở trong cửa sổ mới), cung cấp cho các tác nhân quyền truy cập vào nguồn dữ liệu đào tạo lớn và dễ định lượng. Mục tiêu của mỗi cấp độ CoinRun rất đơn giản: thu thập đồng xu duy nhất nằm ở cuối cấp độ. Một số chướng ngại vật, cả cố định và không cố định, nằm giữa tác nhân và đồng xu. Va chạm với chướng ngại vật sẽ khiến tác nhân tử vong ngay lập tức. Phần thưởng duy nhất trong môi trường là thu thập đồng xu và phần thưởng này là hằng số dương cố định. Cấp độ kết thúc khi tác nhân chết, đồng xu được thu thập hoặc sau 1000 bước thời gian.
Đánh giá tổng quát
Chúng tôi đã đào tạo 9 tác nhân để chơi CoinRun, mỗi tác nhân có một số cấp độ đào tạo khác nhau. 8 tác nhân đầu tiên được đào tạo trên các bộ từ 100 đến 16.000 cấp độ. Chúng tôi đã đào tạo tác nhân cuối cùng trên một bộ cấp độ không giới hạn, vì vậy tác nhân này không bao giờ thấy cùng một cấp độ hai lần. Chúng tôi đã đào tạo các tác nhân của mình bằng các chính sách sử dụng một (mở trong cửa sổ mới)Kiến trúc tích chập 3 lớp (mở trong cửa sổ mới), mà chúng tôi gọi là Nature-CNN. Các đại lý của chúng tôi được đào tạo với Proximal Policy Optimization (mở trong cửa sổ mới) ( PPO (mở trong cửa sổ mới)) với tổng cộng 256M bước thời gian. Vì một tập kéo dài trung bình 100 bước thời gian, các tác nhân có bộ đào tạo cố định sẽ thấy mỗi cấp độ đào tạo từ hàng nghìn đến hàng triệu lần. Tác nhân cuối cùng, được đào tạo với bộ không hạn chế, sẽ thấy khoảng 2 triệu cấp độ riêng biệt — mỗi cấp độ đúng một lần.
Chúng tôi đã thu thập từng điểm dữ liệu trong các biểu đồ sau bằng cách tính trung bình hiệu suất của tác nhân cuối cùng qua 10.000 tập. Vào thời điểm thử nghiệm, tác nhân được đánh giá ở các cấp độ chưa từng thấy trước đây. Chúng tôi phát hiện ra rằng hiện tượng quá khớp đáng kể xảy ra khi có ít hơn 4.000 cấp độ đào tạo. Trên thực tế, chúng tôi vẫn thấy hiện tượng quá khớp ngay cả với 16.000 cấp độ đào tạo! Không có gì ngạc nhiên khi các tác nhân được đào tạo với tập hợp các cấp độ không bị hạn chế thực hiện tốt nhất vì các tác nhân này có quyền truy cập vào nhiều dữ liệu nhất. Các tác nhân này được biểu diễn bằng đường chấm trong các biểu đồ sau.
Chúng tôi đã so sánh đường cơ sở Nature-CNN của chúng tôi với kiến trúc tích chập được sử dụng trong IMPALA (mở trong cửa sổ mới) và thấy rằng các tác nhân IMPALA-CNN có khả năng tổng quát hóa tốt hơn nhiều với bất kỳ bộ đào tạo nào như được thấy bên dưới.
Cải thiện hiệu suất tổng quát
Trong các thí nghiệm tiếp theo, chúng tôi đã sử dụng một bộ huấn luyện cố định gồm 500 cấp độ CoinRun. Các tác nhân cơ bản của chúng tôi gặp khó khăn trong việc khái quát hóa với rất ít cấp độ, khiến đây trở thành một bộ huấn luyện lý tưởng cho một chuẩn mực. Chúng tôi khuyến khích những người khác đánh giá các phương pháp của riêng họ bằng cách huấn luyện trên cùng 500 cấp độ, so sánh trực tiếp hiệu suất thời gian thử nghiệm. Sử dụng bộ huấn luyện này, chúng tôi đã nghiên cứu tác động của một số kỹ thuật chính quy hóa:
+ Dropout và chính quy hóa L2 : Cả hai đều làm giảm đáng kể khoảng cách tổng quát, mặc dù chính quy hóa L2 có tác động lớn hơn.
+ Tăng cường dữ liệu (Cắt bỏ đã sửa đổi(mở trong cửa sổ mới)) và chuẩn hóa hàng loạt (mở trong cửa sổ mới):Cả việc tăng cường dữ liệu và chuẩn hóa theo lô đều cải thiện đáng kể khả năng khái quát hóa.
+ Tính ngẫu nhiên của môi trường : Việc đào tạo với tính ngẫu nhiên cải thiện khả năng khái quát hóa ở mức độ lớn hơn bất kỳ kỹ thuật nào đã đề cập trước đó (xem bài báo (mở trong cửa sổ mới) để biết thêm chi tiết).
.png)
Môi trường bổ sung
Chúng tôi cũng đã phát triển thêm hai môi trường để nghiên cứu quá mức: một biến thể CoinRun có tên là CoinRun-Platforms và một môi trường điều hướng mê cung đơn giản có tên là RandomMazes . Trong các thí nghiệm này, chúng tôi đã sử dụng kiến trúc IMPALA-CNN ban đầu theo sau là LSTM (mở trong cửa sổ mới), vì trí nhớ là cần thiết để hoạt động tốt trong những môi trường này.
- Tài khoản ChatGTP 4 chỉ với vài bước đơn giản
Khi chúng tôi chạy cả CoinRun-Platforms và RandomMazes thông qua thử nghiệm cơ sở của mình, các tác nhân của chúng tôi đều quá khớp trong mọi trường hợp. Chúng tôi quan sát thấy tình trạng quá khớp đặc biệt mạnh trong trường hợp RandomMazes, vì vẫn còn khoảng cách khái quát đáng kể ngay cả khi sử dụng 20.000 cấp độ đào tạo.
Các bước tiếp theo
Kết quả của chúng tôi cung cấp cái nhìn sâu sắc về những thách thức cơ bản của khái quát hóa trong RL. Sử dụng môi trường CoinRun được tạo theo thủ tục, chúng tôi có thể định lượng chính xác sự phù hợp quá mức như vậy. Với số liệu này, chúng tôi có thể đánh giá tốt hơn các quyết định chính về kiến trúc và thuật toán. Chúng tôi tin rằng những bài học kinh nghiệm từ môi trường này sẽ áp dụng được trong các bối cảnh phức tạp hơn và chúng tôi hy vọng sẽ sử dụng chuẩn mực này và các chuẩn mực khác tương tự để lặp lại hướng tới các tác nhân có khả năng khái quát hóa hơn.
Chúng tôi đề xuất những điều sau cho nghiên cứu trong tương lai:
+ Nghiên cứu mối quan hệ giữa sự phức tạp của môi trường và số lượng cấp độ cần thiết để khái quát hóa tốt
+ Điều tra xem các kiến trúc tuần hoàn khác nhau có phù hợp hơn cho việc khái quát hóa trong các môi trường này không
+ Khám phá những cách kết hợp hiệu quả các phương pháp chính quy hóa khác nhau

Cách đổi Mật khẩu Chat GPT - Hướng dẫn đổi Pass Chat GPT 100% Thành công
Hướng dẫn Cách đăng nhập Chat GPT Nhanh nhất | Có hỗ trợ Miễn phí qua Teamview-Ultraview
Chat GPT Plus là gì? So sánh Chat GPT Plus với Chat GPT Miễn phí
Chat GPT bị giới hạn giải thích vì sao và cách khắc phục
Chat GPT là gì ? Cách đăng Ký Chat GPT Miễn Phí tại Việt Nam