zalo
Chat ngay

MMO thần kinh: Một môi trường trò chơi đa tác nhân khổng lồ

 

Chúng tôi đang phát hành một  MMO thần kinh (mở trong cửa sổ mới), một môi trường trò chơi đa tác nhân khổng lồ dành cho các tác nhân học tăng cường. Nền tảng của chúng tôi hỗ trợ một số lượng lớn các tác nhân thay đổi trong một nhiệm vụ liên tục và mở. Việc đưa vào nhiều tác nhân và loài dẫn đến việc khám phá tốt hơn, hình thành ngách khác biệt và năng lực tổng thể cao hơn.

Trong những năm gần đây, các thiết lập đa tác nhân đã trở thành một  nền tảng hiệu quả (mở trong cửa sổ mới) vì (mở trong cửa sổ mới) sâu (mở trong cửa sổ mới) sự gia cố (mở trong cửa sổ mới) học hỏi (mở trong cửa sổ mới) nghiên cứu(mở trong cửa sổ mới). Mặc dù có tiến bộ này, vẫn còn hai thách thức chính đối với việc học tăng cường đa tác nhân. Chúng ta cần tạo ra các nhiệm vụ mở với mức độ phức tạp cao: môi trường hiện tại hoặc phức tạp nhưng  quá hẹp (mở trong cửa sổ mới) hoặc mở nhưng  quá (mở trong cửa sổ mới) đơn giản (mở trong cửa sổ mới). Các đặc tính như tính bền bỉ và quy mô dân số lớn là chìa khóa, nhưng chúng ta cũng cần nhiều  môi trường chuẩn hơn  để định lượng tiến trình học tập khi có quy mô dân số lớn và tính bền bỉ. Thể loại trò chơi Trò chơi trực tuyến nhiều người chơi (MMO) mô phỏng một hệ sinh thái lớn gồm nhiều người chơi khác nhau cạnh tranh trong các môi trường bền bỉ và rộng lớn.

Để giải quyết những thách thức này, chúng tôi đã xây dựng Neural MMO để đáp ứng các tiêu chí sau:

+ Sự bền bỉ : Các tác nhân học đồng thời khi có các tác nhân học khác mà không cần thiết lập lại môi trường. Các chiến lược phải xem xét các mốc thời gian dài và thích ứng với những thay đổi có thể xảy ra nhanh chóng trong hành vi của các tác nhân khác.

+ Quy mô : Môi trường hỗ trợ số lượng lớn và đa dạng các thực thể. Các thí nghiệm của chúng tôi xem xét tới 100 triệu vòng đời của 128 tác nhân đồng thời trong mỗi 100 máy chủ đồng thời.

+ Hiệu quả : Rào cản tính toán để gia nhập là thấp. Chúng ta có thể đào tạo các chính sách hiệu quả trên một CPU máy tính để bàn duy nhất.

+ Mở rộng : Tương tự  như (mở trong cửa sổ mới) hiện có (mở trong cửa sổ mới) MMO (mở trong cửa sổ mới), MMO thần kinh của chúng tôi được thiết kế để cập nhật nội dung mới. Các tính năng cốt lõi hiện tại bao gồm tạo địa hình theo thủ tục dựa trên ô, hệ thống tìm kiếm thức ăn và nước, và hệ thống chiến đấu chiến lược. Có cơ hội mở rộng theo hướng mã nguồn mở trong tương lai.

Môi trường

Người chơi (tác nhân)  có thể tham gia bất kỳ  máy chủ (môi trường) nào khả dụng , mỗi máy chủ đều có một bản đồ trò chơi dựa trên ô được tạo tự động với kích thước có thể cấu hình. Một số ô, chẳng hạn như ô rừng chứa thức ăn và ô cỏ, có thể đi qua được. Những ô khác, chẳng hạn như nước và đá rắn, thì không. Các tác nhân xuất hiện ở một vị trí ngẫu nhiên dọc theo các cạnh của môi trường. Họ phải kiếm thức ăn và nước, và tránh sát thương chiến đấu từ các tác nhân khác, để duy trì sức khỏe của họ. Bước lên một ô rừng hoặc bên cạnh một ô nước sẽ lần lượt làm đầy một phần nguồn cung cấp thức ăn hoặc nước của tác nhân. Tuy nhiên, các ô rừng có nguồn cung cấp thức ăn hạn chế, chúng sẽ tái tạo chậm theo thời gian. Điều này có nghĩa là các tác nhân phải cạnh tranh để giành được các ô thức ăn trong khi định kỳ làm đầy nguồn cung cấp nước của họ từ các ô nước vô hạn. Người chơi tham gia chiến đấu bằng ba phong cách chiến đấu, được gọi là  Cận chiến, Tầm xa  và  Pháp sư  để tạo hương vị.  

Đầu vào : Các tác nhân quan sát một ô vuông được căn giữa vào vị trí hiện tại của họ. Bao gồm các loại địa hình ô và các thuộc tính được chọn (sức khỏe, thức ăn, nước và vị trí) của các tác nhân chiếm giữ.

Đầu ra : Các tác nhân đưa ra lựa chọn hành động cho lần chơi tiếp theo  ( bước thời gian) . Các hành động bao gồm một lần di chuyển và một lần tấn công. 

Mô hình

Như một đường cơ sở đơn giản, chúng tôi đào tạo một kiến ​​trúc nhỏ, được kết nối đầy đủ bằng cách sử dụng  các gradient chính sách vanilla(mở trong cửa sổ mới), với đường cơ sở hàm giá trị và chiết khấu phần thưởng là những cải tiến duy nhất. Thay vì thưởng cho các tác nhân khi đạt được các mục tiêu cụ thể, các tác nhân chỉ tối ưu hóa cho  thời gian sống của họ (chiều dài quỹ đạo) : họ nhận được phần thưởng 1 cho mỗi tích tắc trong thời gian sống của họ. Chúng tôi chuyển đổi các quan sát có độ dài thay đổi, chẳng hạn như danh sách những người chơi xung quanh, thành một vectơ độ dài duy nhất bằng cách tính toán giá trị tối đa trên tất cả những người chơi ( OpenAI Five  cũng sử dụng thủ thuật này). Bản phát hành nguồn bao gồm triển khai đào tạo phân tán đầy đủ của chúng tôi, dựa trên  PyTorch (mở trong cửa sổ mới) và  Ray (mở trong cửa sổ mới).

Kết quả đánh giá

 

Chính sách của các tác nhân được lấy mẫu thống nhất từ ​​một số quần thể—các tác nhân trong các quần thể khác nhau chia sẻ kiến ​​trúc, nhưng chỉ các tác nhân trong cùng một quần thể mới chia sẻ trọng số. Các thí nghiệm ban đầu cho thấy năng lực của tác nhân tăng theo tương tác giữa nhiều tác nhân. Việc tăng số lượng người chơi đồng thời tối đa sẽ khuếch đại quá trình khám phá; việc tăng số lượng quần thể sẽ khuếch đại quá trình hình thành hốc—tức là xu hướng các quần thể phân tán và kiếm ăn trong các phần khác nhau của bản đồ.

Giải đấu hợp nhất máy chủ: Multiagent nâng cao năng lực

Không có quy trình chuẩn nào giữa các MMO để đánh giá năng lực tương đối của người chơi trên nhiều máy chủ. Tuy nhiên, đôi khi các máy chủ MMO phải hợp nhất, trong đó các cơ sở người chơi từ nhiều máy chủ được đặt trong một máy chủ duy nhất. Chúng tôi triển khai đánh giá theo kiểu "giải đấu" bằng cách hợp nhất các cơ sở người chơi được đào tạo ở các máy chủ khác nhau. Điều này cho phép chúng tôi so sánh trực tiếp các chính sách đã học được trong các thiết lập thử nghiệm khác nhau. Chúng tôi thay đổi thang thời gian thử nghiệm và thấy rằng các tác nhân được đào tạo trong các thiết lập lớn hơn luôn vượt trội hơn các tác nhân được đào tạo trong các thiết lập nhỏ hơn.

Quy mô dân số tăng làm tăng khả năng khám phá

Chúng tôi hình dung sự phụ thuộc giữa các tác nhân-tác nhân bằng cách cố định một tác nhân ở trung tâm của một bản đồ cắt giả định. Đối với mỗi vị trí mà tác nhân đó có thể nhìn thấy, chúng tôi sẽ hiển thị hàm giá trị sẽ là gì nếu có một tác nhân thứ hai ở vị trí đó. Chúng tôi thấy rằng các tác nhân học các chính sách phụ thuộc vào các tác nhân khác, trong cả môi trường kiếm ăn và chiến đấu. Các tác nhân học các bản đồ tránh "mắt bò" để bắt đầu kiếm ăn hiệu quả hơn chỉ sau vài phút đào tạo. Khi các tác nhân học được cơ chế chiến đấu của môi trường, chúng bắt đầu đánh giá đúng phạm vi giao tranh hiệu quả và góc tiếp cận.

Các bước tiếp theo

Neural MMO của chúng tôi giải quyết hai hạn chế chính của các môi trường dựa trên trò chơi trước đây, nhưng vẫn còn nhiều hạn chế chưa được giải quyết. Neural MMO này đạt được sự cân bằng giữa  độ phức tạp của môi trường (mở trong cửa sổ mới) và  dân số (mở trong cửa sổ mới) tỉ lệ (mở trong cửa sổ mới). Chúng tôi thiết kế môi trường này với mục đích mở rộng mã nguồn mở và để cộng đồng nghiên cứu có thể phát triển.

Nếu bạn hứng thú với việc nghiên cứu các hệ thống đa tác nhân, hãy cân nhắc tham gia OpenAI.

Xem thêm: mua tài khoản ChatGPT Plustài khoản ChatGPT 4 chính hãng giá rẻ

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !