zalo
Chat ngay

OpenAI Năm

Nhóm năm mạng lưới nơ-ron của chúng tôi, OpenAI Five, đã bắt đầu đánh bại các đội chơi Dota 2 nghiệp dư

Nhóm năm mạng nơ-ron của chúng tôi, OpenAI Five, đã bắt đầu đánh  bại  các đội nghiệp dư của con người tại  Dota 2 (mở trong cửa sổ mới). Trong khi hôm nay chúng ta chơi với  những hạn chế , chúng ta đặt mục tiêu đánh bại một đội gồm những chuyên gia hàng đầu tại  The International (mở trong cửa sổ mới) vào tháng 8 chỉ áp dụng cho một số lượng anh hùng hạn chế. Chúng ta có thể không thành công: Dota 2 là một trong những trò chơi phổ biến và  phức tạp nhất (mở trong cửa sổ mới) trò chơi thể thao điện tử trên thế giới, với các chuyên gia sáng tạo và có động lực  đào tạo (mở trong cửa sổ mới) quanh năm để kiếm được một phần trong  tổng giải thưởng 40 triệu đô la hàng năm của Dota (mở trong cửa sổ mới) (trò chơi thể thao điện tử lớn nhất).

OpenAI Five chơi 180 năm trò chơi với chính nó mỗi ngày, học thông qua việc tự chơi. Nó đào tạo bằng cách sử dụng phiên bản  Proximal Policy Optimization mở rộng  chạy trên 256 GPU và 128.000 lõi CPU—một phiên bản mở rộng hơn của hệ thống mà chúng tôi đã xây dựng để chơi  phiên bản solo đơn giản hơn nhiều  của trò chơi vào năm ngoái. Sử dụng  LSTM riêng biệt (mở trong cửa sổ mới) đối với mỗi anh hùng và không có dữ liệu của con người, nó học các chiến lược dễ nhận biết. Điều này chỉ ra rằng học tăng cường(mở trong cửa sổ mới) có thể mang lại kế hoạch dài hạn với quy mô lớn nhưng có thể đạt được—mà không cần những tiến bộ cơ bản, trái ngược với kỳ vọng của chúng ta khi bắt đầu dự án.

Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ với nhiều ưu đãi trong ngày hôm nay

Để đánh giá tiến trình của chúng tôi, chúng tôi sẽ tổ chức một trận đấu với những người chơi hàng đầu vào ngày 5 tháng 8.  Theo dõi(mở trong cửa sổ mới) chúng tôi trên Twitch để xem chương trình phát sóng trực tiếp hoặc  yêu cầu (mở trong cửa sổ mới) lời mời tham dự trực tiếp!

Vấn đề

Một cột mốc của AI là vượt qua khả năng của con người trong một trò chơi điện tử phức tạp như  StarCraft (mở trong cửa sổ mới) hoặc Dota. So với các cột mốc AI trước đây như  Cờ vua (mở trong cửa sổ mới) hoặc  đi (mở trong cửa sổ mới), các trò chơi điện tử phức tạp bắt đầu nắm bắt được bản chất hỗn độn và liên tục của thế giới thực. Hy vọng là các hệ thống giải quyết các trò chơi điện tử phức tạp sẽ có tính tổng quát cao, với các ứng dụng bên ngoài trò chơi.

Dota 2 là một trò chơi chiến lược thời gian thực được chơi giữa hai đội gồm năm người chơi, mỗi người chơi điều khiển một nhân vật được gọi là "anh hùng". Một AI chơi Dota phải thành thạo những điều sau:

+ Đường chân trời thời gian dài.  Các trò chơi Dota chạy ở tốc độ 30 khung hình mỗi giây trong trung bình 45 phút, tạo ra 80.000 tích tắc mỗi trò chơi. Hầu hết các hành động (như ra lệnh cho một anh hùng di  chuyển đến một địa điểm) có tác động nhỏ riêng lẻ, nhưng một số hành động riêng lẻ như cổng thị trấn việc sử dụng có thể ảnh hưởng đến trò chơi một cách chiến lược; một số  chiến lược có thể chơi trong toàn bộ trò chơi. OpenAI Five quan sát mỗi khung hình thứ tư, tạo ra 20.000 nước đi.  Cờ vua  thường kết thúc trước 40 nước đi,  Đi trước 150 nước đi, trong đó hầu hết mọi nước đi đều mang tính chiến lược.

+ Trạng thái quan sát một phần.  Các đơn vị và tòa nhà chỉ có thể nhìn thấy khu vực xung quanh chúng. Phần còn lại của bản đồ được bao phủ bởi sương mù che giấu kẻ thù và chiến lược của chúng. Chơi mạnh đòi hỏi phải đưa ra suy luận dựa trên dữ liệu không đầy đủ, cũng như mô hình hóa những gì đối thủ của mình có thể làm. Cả cờ vua và cờ vây đều là trò chơi thông tin đầy đủ.

+ Không gian hành động liên tục, đa chiều.  Trong Dota, mỗi hero có thể thực hiện hàng chục hành động và nhiều hành động nhắm vào một đơn vị khác hoặc một vị trí trên mặt đất. Chúng tôi phân chia không gian thành 170.000 hành động có thể cho mỗi hero (không phải tất cả đều hợp lệ trong mỗi lần đánh, chẳng hạn như sử dụng phép thuật khi hồi chiêu; không tính các phần liên tục, trung bình có khoảng ~1.000 hành động hợp lệ mỗi lần tích tắc. Số lượng hành động trung bình(mở trong cửa sổ mới) trong cờ vua là 35; trong cờ vây là 250.

+ Không gian quan sát liên tục, đa chiều.  Dota được chơi trên một bản đồ liên tục lớn chứa mười anh hùng, hàng chục tòa nhà, hàng chục  NPC (mở trong cửa sổ mới) đơn vị và một loạt các tính năng trò chơi như rune, cây cối và ward. Mô hình của chúng tôi quan sát trạng thái của trò chơi Dota thông qua  API Bot của Valve là 20.000 số (chủ yếu là số dấu phẩy động) đại diện cho tất cả thông tin mà con người được phép truy cập. Một bàn cờ vua được biểu diễn tự nhiên bằng khoảng 70 giá trị liệt kê (một bàn cờ 8x8 gồm 6 loại quân cờ và các loại  lịch sử nhỏ thông tin(mở trong cửa sổ mới)); một bàn cờ vây có khoảng 400 giá trị liệt kê (một bàn cờ 19x19 gồm 2 loại quân cờ cộng với  Ko(mở trong cửa sổ mới)).

Luật chơi Dota cũng rất phức tạp — trò chơi đã được phát triển tích cực trong hơn một thập kỷ, với logic trò chơi được triển khai trong hàng trăm nghìn dòng mã. Logic này mất vài mili giây cho mỗi lần đánh dấu để thực thi, so với nano giây cho các công cụ Cờ vua hoặc Cờ vây. Trò chơi cũng được cập nhật khoảng hai tuần một lần, liên tục thay đổi ngữ nghĩa môi trường.

Cách tiếp cận của chúng tôi

Hệ thống của chúng tôi học bằng cách sử dụng phiên bản  Proximal Policy Optimization được mở rộng quy mô lớn . Cả OpenAI Five và  bot 1v1 trước đó của chúng tôi  đều học hoàn toàn từ việc tự chơi. Chúng bắt đầu bằng các tham số ngẫu nhiên và không sử dụng  tìm kiếm(mở trong cửa sổ mới) hoặc khởi động từ phản hồi của con người.

 Robot OpenAI 1v1OpenAI Năm
CPU60.000 lõi CPU trên Azure128.000 lõi CPU có thể chiếm dụng trước trên GCP
GPU256 GPU K80 trên Azure256 GPU P100 trên GCP
Kinh nghiệm thu thập được~300 năm một ngày~180 năm mỗi ngày (~900 năm mỗi ngày nếu tính riêng từng anh hùng)
Kích thước quan sát~3,3kB~36,8kB
Quan sát mỗi giây trong trò chơi107,5
Kích thước lô8.388.608 quan sát1.048.576 quan sát
Số lô mỗi phút~20~60
 

Các nhà nghiên cứu RL (bao gồm cả chúng tôi) nhìn chung đều  tin rằng (mở trong cửa sổ mới) rằng tầm nhìn dài hạn sẽ đòi hỏi những tiến bộ mới về cơ bản, chẳng hạn như  hệ thống phân cấp(mở trong cửa sổ mới) học tăng cường (mở trong cửa sổ mới). Kết quả của chúng tôi cho thấy rằng chúng ta chưa đánh giá đúng mức các thuật toán hiện nay — ít nhất là khi chúng được chạy ở quy mô đủ lớn và với cách  khám phá hợp lý .

Tác nhân của chúng tôi được đào tạo để tối đa hóa tổng số phần thưởng trong tương lai bị phân rã theo cấp số nhân, được cân nhắc bởi một hệ số phân rã theo cấp số nhân được gọi là  γ. Trong lần chạy đào tạo mới nhất của OpenAI Five, chúng tôi đã ủ  γ từ  0.998 (đánh giá phần thưởng trong tương lai với chu kỳ bán rã là 46 giây) đến  0.9997 (đánh giá phần thưởng trong tương lai với chu kỳ bán rã là năm phút). Để so sánh, đường chân trời dài nhất trong  PPO (mở trong cửa sổ mới) giấy có chu kỳ bán rã là 0,5 giây, dài nhất trong  Cầu Vồng giấy có chu kỳ bán rã là 4,4 giây, và  Quan sát và Nhìn xa hơn(mở trong cửa sổ mới) giấy có thời gian bán hủy là 46 giây.

Trong khi phiên bản hiện tại của OpenAI Five yếu ở  khả năng ra đòn cuối cùng (quan sát các trận đấu thử nghiệm của chúng tôi, bình luận viên Dota chuyên nghiệp  Blitz ước tính nó ở mức trung bình đối với người chơi Dota),  mục tiêu ưu tiên của nó  phù hợp với một chiến lược chuyên nghiệp phổ biến. Việc đạt được phần thưởng dài hạn như kiểm soát bản đồ chiến lược thường đòi hỏi phải hy sinh phần thưởng ngắn hạn như vàng kiếm được từ việc  cày ruộng, vì việc tập hợp lại để tấn công các tòa tháp mất thời gian. Quan sát này củng cố niềm tin của chúng tôi rằng hệ thống thực sự đang tối ưu hóa trong một đường chân trời dài.

Cấu trúc mô hình

Mỗi  mạng lưới của OpenAI Fiveb chứa một lớp đơn, 1024 đơn vị  LSTM thấy trạng thái trò chơi hiện tại (trích xuất từ  ​​API Bot của Valve) và phát ra các hành động thông qua một số đầu hành động có thể. Mỗi đầu có ý nghĩa ngữ nghĩa, ví dụ, số lần tích tắc để trì hoãn hành động này, hành động nào cần chọn, tọa độ X hoặc Y của hành động này trong lưới xung quanh đơn vị, v.v. Các đầu hành động được tính toán độc lập.

Bản trình bày tương tác về không gian quan sát và không gian hành động được OpenAI Five sử dụng. OpenAI Five xem thế giới như một danh sách gồm 20.000 con số và thực hiện hành động bằng cách phát ra danh sách gồm 8 giá trị liệt kê. Chọn các hành động và mục tiêu khác nhau để hiểu cách OpenAI Five mã hóa từng hành động và cách nó quan sát thế giới. Hình ảnh hiển thị cảnh như con người sẽ thấy.

Khám phá

Với một thuật toán học tập có khả năng xử lý các đường chân trời dài, chúng ta vẫn cần khám phá môi trường. Ngay cả với  những hạn chế của chúng ta , vẫn có hàng trăm vật phẩm, hàng chục tòa nhà, phép thuật và loại đơn vị, và một loạt các cơ chế trò chơi để tìm hiểu—nhiều trong số đó tạo ra các kết hợp mạnh mẽ. Không dễ để khám phá không gian rộng lớn về mặt kết hợp này một cách hiệu quả.

OpenAI Five học từ việc tự chơi (bắt đầu từ các trọng số ngẫu nhiên), cung cấp một chương trình giảng dạy tự nhiên để khám phá môi trường. Để tránh "sụp đổ chiến lược", tác nhân luyện tập 80% các trò chơi của mình với chính nó và 20% còn lại với bản thân trong quá khứ của nó. Trong các trò chơi đầu tiên, các anh hùng đi lang thang vô định quanh bản đồ. Sau nhiều giờ luyện tập, các khái niệm như  đi đường(mở trong cửa sổ mới),  nông nghiệp(mở trong cửa sổ mới), hoặc chiến đấu ở  giữa(mở trong cửa sổ mới) xuất hiện. Sau nhiều ngày, họ liên tục áp dụng các chiến lược cơ bản của con người: cố gắng đánh cắp  Bounty(mở trong cửa sổ mới) rune từ đối thủ của họ, đi đến  cấp độ một của họ(mở trong cửa sổ mới) tháp để farm và xoay vòng các anh hùng trên bản đồ để giành lợi thế đường. Và với sự đào tạo thêm, họ trở nên thành thạo các chiến lược cấp cao như  đẩy 5 anh hùng(mở trong cửa sổ mới).

Vào tháng 3 năm 2017,  đại lý đầu tiên của chúng tôi(mở trong cửa sổ mới) đánh bại bot nhưng lại bị nhầm lẫn với con người. Để buộc phải khám phá trong không gian chiến lược, trong quá trình huấn luyện (và chỉ trong quá trình huấn luyện), chúng tôi đã ngẫu nhiên hóa các thuộc tính (sức khỏe, tốc độ, cấp độ bắt đầu, v.v.) của các đơn vị và nó bắt đầu đánh bại con người. Sau đó, khi một người chơi thử nghiệm liên tục đánh bại bot 1v1 của chúng tôi, chúng tôi đã tăng số lần ngẫu nhiên hóa trong quá trình huấn luyện và người chơi thử nghiệm bắt đầu thua. (Nhóm robot của chúng tôi đồng thời áp dụng các kỹ thuật ngẫu nhiên hóa tương tự cho  robot vật lý  để chuyển từ mô phỏng sang thế giới thực.) 

OpenAI Five sử dụng các phép ngẫu nhiên mà chúng tôi đã viết cho bot 1v1 của mình. Nó cũng sử dụng một phép "phân công làn đường" mới. Vào đầu mỗi trò chơi đào tạo, chúng tôi "phân công" ngẫu nhiên từng anh hùng vào một số tập hợp con của  các làn đường(mở trong cửa sổ mới) và phạt nó khi đi chệch khỏi những làn đường đó cho đến thời điểm được chọn ngẫu nhiên trong trò chơi.

Khám phá cũng được hỗ trợ bởi phần thưởng tốt.  Phần thưởng của chúng tôi(mở trong cửa sổ mới) bao gồm chủ yếu là các số liệu mà con người theo dõi để quyết định họ đang chơi như thế nào: giá trị tài sản ròng, số lần giết, số lần chết, số lần hỗ trợ, số lần đánh cuối cùng, v.v. Chúng tôi xử lý hậu kỳ phần thưởng của từng tác nhân bằng cách trừ đi phần thưởng trung bình của đội kia để ngăn các tác nhân tìm thấy các tình huống tổng dương.

Chúng tôi mã hóa cứng các bản dựng vật phẩm và kỹ năng (ban đầu được viết cho  đường cơ sở theo kịch bản của chúng tôi  ) và chọn bản dựng nào để sử dụng ngẫu nhiên.  Chuyển phát nhanh(mở trong cửa sổ mới) quản lý cũng được nhập từ đường cơ sở đã có kịch bản.

Phối hợp

OpenAI Five không chứa kênh giao tiếp rõ ràng giữa các mạng nơ-ron của các anh hùng. Làm việc nhóm được kiểm soát bởi một siêu tham số mà chúng tôi gọi là "tinh thần đồng đội". Tinh thần đồng đội dao động từ 0 đến 1, đặt trọng số vào mức độ mỗi anh hùng của OpenAI Five nên quan tâm đến hàm phần thưởng riêng của mình so với mức trung bình của các hàm phần thưởng của đội. Chúng tôi ủ giá trị của nó từ 0 đến 1 trong quá trình đào tạo.

Nhanh

Hệ thống của chúng tôi được triển khai như một hệ thống đào tạo RL mục đích chung được gọi là Rapid, có thể áp dụng cho bất kỳ  Phòng tập thể dục nào(mở trong cửa sổ mới) môi trường. Chúng tôi đã sử dụng Rapid để giải quyết các vấn đề khác tại OpenAI, bao gồm cả  Chơi tự cạnh tranh.

Hệ thống đào tạo được tách thành  các công nhân triển khai  , chạy một bản sao của trò chơi và một tác nhân thu thập kinh nghiệm, và  các nút tối ưu hóa  , thực hiện giảm dần độ dốc đồng bộ trên một đội GPU. Các công nhân triển khai đồng bộ hóa kinh nghiệm của họ thông qua Redis với các trình tối ưu hóa. Mỗi thử nghiệm cũng bao gồm các công nhân đánh giá tác nhân được đào tạo so với các tác nhân tham chiếu, cũng như phần mềm giám sát như  TensorBoard (mở trong cửa sổ mới),  lính gác(mở trong cửa sổ mới), và  Grafana(mở trong cửa sổ mới).

Trong quá trình giảm dần độ dốc đồng bộ, mỗi GPU tính toán một độ dốc trên phần của nó trong lô, sau đó các độ dốc được tính trung bình toàn cầu. Ban đầu chúng tôi sử dụng  MPI(mở trong cửa sổ mới) tất cả giảm(mở trong cửa sổ mới) để tính trung bình, nhưng bây giờ sử dụng  NCCL2 của chúng tôi(mở trong cửa sổ mới) wrappers song song hóa các phép tính GPU và truyền dữ liệu mạng. Độ trễ để đồng bộ hóa 58MB dữ liệu (kích thước tham số của OpenAI Five) trên nhiều GPU khác nhau được hiển thị ở bên phải. Độ trễ đủ thấp để phần lớn được che giấu bởi phép tính GPU chạy song song với nó.

Chúng tôi đã triển khai nền tảng Kubernetes, Azure và GCP cho Rapid.

Các trò chơi

Cho đến nay, OpenAI Five đã chơi (với những hạn chế của chúng tôi ) với từng đội sau:

+ Đội ngũ nhân viên OpenAI tốt nhất: 2,5k  MMR (phần trăm thứ 46)

+ Những người chơi có lượng khán giả theo dõi trận đấu nhân viên OpenAI đông đảo nhất (bao gồm Blitz, người bình luận trận đấu nhân viên OpenAI đầu tiên): 4–6k MMR (thứ 90-99), mặc dù họ chưa bao giờ chơi theo nhóm.

+ Nhóm nhân viên Valve: 2,5–4k MMR (thứ 46-90).

+ Đội nghiệp dư: 4,2k MMR (thứ 93), luyện tập theo đội.

+ Đội bán chuyên nghiệp: 5,5k MMR (thứ 99), luyện tập theo nhóm.

Phiên bản OpenAI Five ngày 23 tháng 4 là phiên bản đầu tiên vượt qua đường cơ sở theo kịch bản của chúng tôi. Phiên bản OpenAI Five ngày 15 tháng 5 ngang tài ngang sức với đội 1, thắng một ván và thua một ván khác. Phiên bản OpenAI Five ngày 6 tháng 6 đã giành chiến thắng quyết định trong tất cả các ván đấu với đội 1–3. Chúng tôi đã thiết lập  các cuộc đấu tập không chính thức(mở trong cửa sổ mới) với đội 4 và 5, dự kiến ​​sẽ thua đậm, nhưng OpenAI Five đã thắng hai trong ba trận đầu tiên trước cả hai đội.

 

“Mặt làm việc nhóm của bot thật sự quá sức. Cảm giác như năm người chơi vô tư biết một chiến lược chung tốt.”
Blitz

Chúng tôi quan sát thấy OpenAI Five:

+ Liên tục hy sinh làn đường an toàn của chính mình (mở trong cửa sổ mới) (đường trên cho dire; đường dưới cho radiant) để đổi lấy việc kiểm soát đường an toàn của đối phương, buộc giao tranh sang phía mà đối thủ khó phòng thủ hơn. Chiến lược này đã xuất hiện trong bối cảnh chuyên nghiệp trong vài năm trở lại đây và hiện được coi là chiến thuật thịnh hành. Blitz bình luận rằng anh ấy chỉ học được điều này sau tám năm chơi, khi  Team Liquid(mở trong cửa sổ mới) đã kể cho anh ấy về chuyện đó.

+ Đẩy các chuyển đổi(mở trong cửa sổ mới) từ đầu đến giữa trò chơi nhanh hơn đối thủ của nó. Nó đã làm điều này bằng cách: (1) thiết lập  các cuộc gank thành công(mở trong cửa sổ mới) (khi người chơi di chuyển quanh bản đồ để phục kích một anh hùng địch—xem hoạt ảnh) khi người chơi mở rộng đường đi quá mức và (2) bằng cách tập hợp lại để chiếm trụ trước khi đối thủ kịp tổ chức phản công.

+ Khác với  phong cách chơi hiện tại(mở trong cửa sổ mới) trong một số lĩnh vực, chẳng hạn như hỗ  trợ(mở trong cửa sổ mới) anh hùng (thường không được ưu tiên về tài nguyên) có nhiều kinh nghiệm và vàng ban đầu. Việc ưu tiên của OpenAI Five cho phép sát thương đạt đỉnh sớm hơn và tăng lợi thế hơn, giành chiến thắng trong giao tranh đồng đội và tận dụng sai lầm để đảm bảo chiến thắng nhanh chóng.

Sự khác biệt so với con người

OpenAI Five được cấp quyền truy cập vào cùng thông tin như con người, nhưng ngay lập tức nhìn thấy dữ liệu như vị trí, sức khỏe và hàng tồn kho vật phẩm mà con người phải kiểm tra thủ công. Phương pháp của chúng tôi về cơ bản không liên quan đến việc quan sát trạng thái, nhưng chỉ cần kết xuất pixel từ trò chơi sẽ cần hàng nghìn GPU.

OpenAI Five trung bình thực hiện khoảng 150-170 hành động mỗi phút (và có mức tối đa lý thuyết là 450 do quan sát mỗi khung hình thứ 4). Thời gian hoàn hảo cho từng khung hình, trong khi  có thể(mở trong cửa sổ mới) đối với những người chơi có kỹ năng, thì điều đó thật dễ dàng đối với OpenAI Five. OpenAI Five có thời gian phản ứng trung bình là 80ms, nhanh hơn con người.

Những khác biệt này quan trọng nhất trong chế độ 1v1 (khi bot của chúng tôi có thời gian phản ứng là 67ms), nhưng sân chơi tương đối công bằng vì chúng tôi thấy con người học hỏi và thích nghi với bot. Hàng chục  chuyên gia(mở trong cửa sổ mới) đã sử dụng(mở trong cửa sổ mới) bot 1v1 của chúng tôi để  đào tạo (mở trong cửa sổ mới) trong những tháng sau TI  năm ngoái (mở trong cửa sổ mới). Theo Blitz, bot 1v1 đã thay đổi cách mọi người nghĩ về chế độ 1v1 (bot áp dụng lối chơi nhanh và mọi người hiện đã thích nghi để theo kịp).

Những phát hiện đáng ngạc nhiên

+ Phần thưởng nhị phân có thể mang lại hiệu suất tốt.  Mô hình 1v1 của chúng tôi có phần thưởng có hình dạng, bao gồm phần thưởng cho lần đánh cuối cùng, tiêu diệt, v.v. Chúng tôi đã chạy một thử nghiệm trong đó chúng tôi chỉ thưởng cho tác nhân khi thắng hoặc thua, và nó được đào tạo chậm hơn một bậc độ lớn và có phần ổn định ở giữa, trái ngược với các đường cong học tập mượt mà mà chúng tôi thường thấy. Thử nghiệm được chạy trên 4.500 lõi và 16 GPU k80, đào tạo ở mức bán chuyên nghiệp (70  TrueSkill(mở trong cửa sổ mới)) thay vì 90 TrueSkill của bot 1v1 tốt nhất của chúng tôi).

+ Có thể học chặn creep từ đầu.  Đối với 1v1, chúng tôi đã học  chặn creep  bằng RL truyền thống với phần thưởng “chặn creep”. Một trong những thành viên trong nhóm của chúng tôi đã rời khỏi khóa đào tạo mô hình 2v2 khi anh ấy đi nghỉ (cầu hôn với người vợ hiện tại của anh ấy!), với ý định xem khóa đào tạo sẽ tăng hiệu suất trong bao lâu. Anh ấy ngạc nhiên khi thấy mô hình đã  học được cách chặn creep(mở trong cửa sổ mới) không có bất kỳ hướng dẫn hoặc phần thưởng đặc biệt nào.

+ Chúng tôi vẫn đang sửa lỗi.  Biểu đồ cho thấy một lần chạy thử nghiệm của mã đã đánh bại người chơi nghiệp dư, so với phiên bản mà chúng tôi chỉ sửa một số lỗi, chẳng hạn như lỗi hiếm gặp trong quá trình huấn luyện hoặc lỗi dẫn đến phần thưởng âm lớn khi đạt đến cấp độ 25. Hóa ra là có thể đánh bại người giỏi trong khi vẫn ẩn chứa những lỗi nghiêm trọng!

Tiếp theo là gì

Nhóm của chúng tôi đang tập trung vào việc đạt được mục tiêu tháng 8. Chúng tôi không biết liệu có thể đạt được hay không, nhưng chúng tôi tin rằng với sự chăm chỉ (và một chút may mắn), chúng tôi sẽ có cơ hội thực sự.

Bài đăng này mô tả ảnh chụp nhanh hệ thống của chúng tôi tính đến ngày 6 tháng 6. Chúng tôi sẽ phát hành các bản cập nhật trong quá trình vượt qua hiệu suất của con người và viết báo cáo về hệ thống cuối cùng của chúng tôi sau khi hoàn thành dự án. Vui lòng tham gia cùng chúng tôi vào ngày 5 tháng 8  trực tuyến(mở trong cửa sổ mới) hoặc  trực tiếp (mở trong cửa sổ mới), khi chúng ta sẽ chơi với một đội gồm những cầu thủ hàng đầu!

Động lực cơ bản của chúng tôi vượt xa Dota. Việc triển khai AI trong thế giới thực sẽ cần phải giải quyết những thách thức do Dota đặt ra mà không được phản ánh trong các trò chơi Chess, Go, Atari hoặc các nhiệm vụ chuẩn mực Mujoco. Cuối cùng, chúng tôi sẽ đo lường sự thành công của hệ thống Dota của mình trong ứng dụng của nó vào các nhiệm vụ trong thế giới thực. Nếu bạn muốn trở thành một phần của những gì sắp tới, chúng tôi đang  tuyển dụng !

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !