.png)
Chúng tôi thấy rằng tự chơi cho phép AI mô phỏng khám phá các kỹ năng vật lý như giải quyết, né tránh, giả vờ, đá, bắt và lặn để lấy bóng, mà không cần thiết kế rõ ràng một môi trường có tính đến các kỹ năng này. Tự chơi đảm bảo rằng môi trường luôn là độ khó phù hợp để AI cải thiện. Cùng với kết quả tự chơi Dota 2 của chúng tôi, chúng tôi ngày càng tin tưởng rằng tự chơi sẽ là một phần cốt lõi của các hệ thống AI mạnh mẽ trong tương lai.
- Trong tay tài khoản ChatGPT 4 với nhiều ưu đãi đãi trong ngày hôm nay
.png)
Chúng tôi thiết lập các cuộc thi giữa nhiều rô-bốt 3D mô phỏng trên nhiều trò chơi cơ bản, huấn luyện từng tác nhân với các mục tiêu đơn giản (đẩy đối thủ ra khỏi võ đài sumo, đến được phía bên kia võ đài trong khi ngăn không cho tác nhân kia làm điều tương tự, đá bóng vào lưới hoặc ngăn không cho tác nhân kia làm như vậy, v.v.), sau đó phân tích các chiến lược khác nhau xuất hiện.
Các tác nhân ban đầu nhận được phần thưởng dày đặc cho các hành vi hỗ trợ khám phá như đứng và tiến về phía trước, cuối cùng được ủ thành số không để được thưởng chỉ vì thắng và thua. Mặc dù có phần thưởng đơn giản, các tác nhân học các hành vi tinh tế như giải quyết, né tránh, giả vờ, đá và bắt, và lặn để lấy bóng. Chính sách mạng nơ-ron của mỗi tác nhân được đào tạo độc lập với Proximal Policy Optimization.
Để hiểu cách các hành vi phức tạp có thể xuất hiện thông qua sự kết hợp giữa các mục tiêu đơn giản và áp lực cạnh tranh, chúng ta hãy phân tích nhiệm vụ đấu vật sumo. Ở đây chúng tôi lấy phần thưởng dày đặc được xác định trong công trình trước đó để huấn luyện một người máy đi bộ, loại bỏ thuật ngữ vận tốc, thêm khoảng cách L2 âm từ tâm vòng và coi đây là phần thưởng khám phá dày đặc cho các tác nhân sumo của chúng tôi. Các tác nhân được phép sử dụng phần thưởng này để khám phá trong vòng ban đầu, sau đó chúng tôi từ từ ủ nó thành số không để các tác nhân học cách tối ưu hóa cho phần thưởng cạnh tranh — đẩy người chơi khác ra khỏi vòng — cho các lần lặp lại đào tạo còn lại.
Mặc dù có thể thiết kế các nhiệm vụ và môi trường đòi hỏi từng kỹ năng này, nhưng điều này đòi hỏi nỗ lực và sự khéo léo từ phía các nhà thiết kế con người, và hành vi của các tác nhân sẽ bị giới hạn về độ phức tạp bởi các vấn đề mà nhà thiết kế con người có thể đặt ra cho họ. Bằng cách phát triển các tác nhân thông qua hàng nghìn lần lặp lại các trận đấu với các phiên bản tốt hơn liên tiếp của chính chúng, chúng ta có thể tạo ra các hệ thống AI liên tục khởi động hiệu suất của chính chúng; chúng tôi đã thấy một hiện tượng tương tự trong dự án Dota 2 của mình , nơi tự chơi cho phép chúng tôi tạo ra một tác nhân RL có thể đánh bại những người chơi hàng đầu trong phiên bản solo của môn thể thao điện tử.
Chuyển giao học tập
Các tác nhân này cũng thể hiện khả năng học chuyển giao, áp dụng các kỹ năng đã học được trong một bối cảnh để thành công trong một bối cảnh khác chưa từng thấy trước đây. Trong một trường hợp, chúng tôi đã lấy tác nhân được đào tạo về nhiệm vụ đấu vật sumo tự chơi và đối mặt với nhiệm vụ đứng trong khi bị nhiễu loạn bởi các lực "gió". Tác nhân đã cố gắng giữ thẳng người mặc dù không bao giờ nhìn thấy môi trường có gió hoặc quan sát các lực gió, trong khi các tác nhân được đào tạo để đi bộ bằng cách sử dụng học tăng cường cổ điển sẽ ngã ngay lập tức.
Quá phù hợp
Các tác nhân của chúng tôi đã quá phù hợp với các chính sách đồng học được thiết kế chính xác để chống lại các đối thủ cụ thể, nhưng sẽ thất bại khi đối mặt với những đối thủ mới có đặc điểm khác. Chúng tôi đã giải quyết vấn đề này bằng cách đưa mỗi tác nhân vào cuộc chiến với nhiều đối thủ khác nhau thay vì chỉ một đối thủ. Những đối thủ có thể này đến từ một tập hợp các chính sách được đào tạo song song cũng như các chính sách từ trước đó trong quá trình đào tạo. Với sự đa dạng của các đối thủ này, các tác nhân cần học các chiến lược chung chứ không chỉ các chiến lược nhắm vào một đối thủ cụ thể.
Ngoài ra, chúng tôi đang phát hành môi trường MuJoCo và các chính sách được đào tạo được sử dụng trong công việc này để những người khác có thể thử nghiệm các hệ thống này.
Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ với nhiều ưu đãi đặc biệt!

Cách đổi Mật khẩu Chat GPT - Hướng dẫn đổi Pass Chat GPT 100% Thành công
Hướng dẫn Cách đăng nhập Chat GPT Nhanh nhất | Có hỗ trợ Miễn phí qua Teamview-Ultraview
Chat GPT Plus là gì? So sánh Chat GPT Plus với Chat GPT Miễn phí
Chat GPT bị giới hạn giải thích vì sao và cách khắc phục
Chat GPT là gì ? Cách đăng Ký Chat GPT Miễn Phí tại Việt Nam