.png)
Roboschool cung cấp môi trường OpenAI Gym mới để điều khiển robot trong mô phỏng. Tám trong số các môi trường này đóng vai trò là giải pháp thay thế miễn phí cho các triển khai MuJoCo hiện có, được điều chỉnh lại để tạo ra chuyển động thực tế hơn. Chúng tôi cũng bao gồm một số môi trường mới, đầy thử thách.
Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ
Roboschool cũng giúp đào tạo nhiều tác nhân cùng lúc trong cùng một môi trường một cách dễ dàng.
Sau khi chúng tôi ra mắt Gym, một vấn đề mà chúng tôi nghe được từ nhiều người dùng là MuJoCo thành phần yêu cầu một giấy phép trả phí (mặc dù MuJoCo gần đây đã thêm miễn phí giấy phép sinh viên cho công việc cá nhân và lớp học. Roboschool loại bỏ ràng buộc này, cho phép mọi người tiến hành nghiên cứu bất kể ngân sách của họ. Roboschool dựa trên Bullet Physics Engine, một nguồn mở, được cấp phép một cách thoải mái thư viện vật lý đã được sử dụng bởi các phần mềm mô phỏng khác như Gazebo và V-REP.
Môi trường
Roboschool đi kèm với mười hai môi trường, bao gồm các nhiệm vụ quen thuộc với người dùng Mujoco cũng như các thử thách mới, chẳng hạn như các phiên bản khó hơn của nhiệm vụ Humanoid walker và môi trường Pong nhiều người chơi. Chúng tôi có kế hoạch mở rộng bộ sưu tập này theo thời gian và mong muốn cộng đồng cũng đóng góp.
Đối với các môi trường MuJoCo hiện có, ngoài việc chuyển chúng sang Bullet, chúng tôi đã sửa đổi chúng để thực tế hơn. Sau đây là ba môi trường chúng tôi đã chuyển, cùng với giải thích về sự khác biệt của chúng so với các môi trường hiện có.
Kiểm soát tương tác và mạnh mẽ
Trong một số môi trường OpenAI Gym trước đây, mục tiêu là học một bộ điều khiển đi bộ. Tuy nhiên, những môi trường này liên quan đến một phiên bản rất cơ bản của vấn đề, trong đó mục tiêu chỉ đơn giản là tiến về phía trước. Trong thực tế, các chính sách đi bộ sẽ học một quỹ đạo tuần hoàn duy nhất và để lại hầu hết không gian trạng thái không được truy cập. Hơn nữa, các chính sách cuối cùng có xu hướng rất mong manh: một cú đẩy nhỏ thường khiến robot bị va chạm và rơi xuống.
Chúng tôi đã thêm hai môi trường nữa với người máy 3D, giúp cho vấn đề di chuyển trở nên thú vị và đầy thử thách hơn. Những môi trường này đòi hỏi sự điều khiển tương tác — các robot phải chạy về phía một lá cờ, vị trí của lá cờ thay đổi ngẫu nhiên theo thời gian.
HumanoidFlagrun được thiết kế để dạy robot cách giảm tốc độ và rẽ. Mục tiêu là chạy về phía lá cờ, vị trí của lá cờ thay đổi ngẫu nhiên.
HumanoidFlagrunHarder cũng cho phép robot ngã và cho nó thời gian để đứng dậy. Nó cũng bắt đầu mỗi tập phim ở tư thế thẳng đứng hoặc nằm trên mặt đất, và robot liên tục bị các khối lập phương màu trắng tấn công để đẩy nó ra khỏi quỹ đạo.
Chúng tôi cung cấp các chính sách được đào tạo cho cả hai
Cờ hình người và HumanoidFlagrunHarder. Các bước đi không nhanh và trông tự nhiên như những bước đi mà chúng ta thấy từ người máy thông thường, nhưng các chính sách này có thể phục hồi từ nhiều tình huống và chúng biết cách điều khiển. Bản thân chính sách này vẫn là một perceptron nhiều lớp, không có trạng thái nội bộ, vì vậy chúng tôi tin rằng trong một số trường hợp, tác nhân sử dụng cánh tay của mình để lưu trữ thông tin.
Nhiều người chơi
Roboschool cho phép bạn vừa chạy vừa đào tạo nhiều tác nhân trong cùng một môi trường. Chúng tôi bắt đầu với RoboschoolPong, với nhiều môi trường khác để theo dõi.
Với chế độ đào tạo nhiều người chơi, bạn có thể đào tạo cùng một tác nhân chơi cho cả hai bên (để nó tự chơi với chính nó), bạn có thể đào tạo hai tác nhân khác nhau bằng cùng một thuật toán hoặc thậm chí bạn có thể thiết lập hai thuật toán khác nhau để đấu với nhau.
Cài đặt nhiều tác nhân đưa ra một số thách thức thú vị. Nếu bạn đào tạo cả hai người chơi cùng lúc, bạn có thể sẽ thấy một đường cong học tập như sau, thu được từ phương pháp chính sách gradient:
.png)
Đường cong học tập cho pong, trong đó các chính sách được cập nhật bằng các thuật toán gradient chính sách chạy đồng thời.
Sau đây là những gì đang xảy ra:
+ Đặc vụ 1 (màu xanh lá cây) biết rằng đôi khi nó có thể đánh một quả bóng ở phía trên, vì vậy nó di chuyển lên phía trên.
+ Đặc vụ 2 (màu tím) phát hiện đối thủ của mình ở trên cùng, vì vậy nó gửi bóng xuống dưới cùng và điều chỉnh quá mức khi đặc vụ khác ở xa.
+ Cuối cùng, Agent 1 phát hiện ra rằng nó có thể tự vệ bằng cách di chuyển xuống phía dưới, nhưng bây giờ nó luôn ở phía dưới, vì Agent 2 luôn đưa bóng xuống phía dưới.
Theo cách đó, các chính sách dao động và không có tác nhân nào học được bất cứ điều gì hữu ích sau nhiều giờ đào tạo. Giống như trong các mạng đối nghịch sinh sản, việc học trong bối cảnh đối nghịch rất khó khăn, nhưng chúng tôi nghĩ đó là một vấn đề nghiên cứu thú vị vì sự tương tác này có thể dẫn đến các chiến lược phức tạp ngay cả trong môi trường đơn giản và nó có thể cung cấp một chương trình giảng dạy tự nhiên.
- Trong tay tài khoản ChatGPT 4 với nhiều ưu đãi hấp dẫn tại đây!

Cách đổi Mật khẩu Chat GPT - Hướng dẫn đổi Pass Chat GPT 100% Thành công
Hướng dẫn Cách đăng nhập Chat GPT Nhanh nhất | Có hỗ trợ Miễn phí qua Teamview-Ultraview
Chat GPT Plus là gì? So sánh Chat GPT Plus với Chat GPT Miễn phí
Chat GPT bị giới hạn giải thích vì sao và cách khắc phục
Chat GPT là gì ? Cách đăng Ký Chat GPT Miễn Phí tại Việt Nam