zalo
Chat ngay

OpenAI Five đánh bại nhà vô địch thế giới Dota 2

OpenAI Five là AI đầu tiên đánh bại nhà vô địch thế giới trong một trò chơi thể thao điện tử, đã giành chiến thắng trong hai trận liên tiếp trước đội vô địch thế giới Dota 2, OG (mở trong cửa sổ mới), tại  Chung kết  vào cuối tuần này. Cả OpenAI Five và AlphaStar của DeepMind đều đã từng đánh bại những game thủ chuyên nghiệp giỏi một cách riêng tư nhưng lại thua trong các trận đấu chuyên nghiệp trực tiếp, khiến đây cũng là lần đầu tiên một AI đánh bại các game thủ chuyên nghiệp trong chương trình phát trực tiếp.

Tại vòng chung kết OpenAI Five, chúng tôi cũng chia sẻ hai điều bất ngờ:

+ OpenAI Five đã khám phá ra khả năng cơ bản để trở thành đồng đội với con người, mặc dù quá trình đào tạo của chúng tôi chỉ tập trung vào việc đánh bại các bot khác. Sự dễ dàng mà chúng tôi biến một AI cạnh tranh thành một AI hợp tác khiến chúng tôi hy vọng rằng các hệ thống AI trong tương lai có thể rất có lợi cho con người khi có nỗ lực phát triển tích cực.

+ Từ ngày 18 đến 21 tháng 4, chúng tôi sẽ mở rộng OpenAI Five để  chơi Internet (mở trong cửa sổ mới), dù là đối thủ cạnh tranh hay đồng đội. Bài kiểm tra cuối cùng này sẽ cho phép chúng ta trả lời một câu hỏi nghiên cứu quan trọng—mức độ OpenAI Five có thể khai thác được hay có thể bị đánh bại một cách đáng tin cậy—và có khả năng là đợt triển khai lớn nhất từ ​​trước đến nay của một tác nhân học tăng cường sâu có năng lực cao mà mọi người có thể tương tác một cách có chủ đích.

Tại sao lại là Dota?

Chúng tôi đã bắt đầu OpenAI Five để giải quyết một vấn đề mà các thuật toán deep reinforcement learning A  hiện tại không thể giải quyết được. Chúng tôi hy vọng rằng bằng cách giải quyết một vấn đề mà các phương pháp hiện tại không thể giải quyết được, chúng tôi sẽ cần phải tăng đáng kể khả năng của các công cụ của mình. Chúng tôi mong đợi sẽ cần những ý tưởng thuật toán phức tạp, chẳng hạn như hierarchical reinforcement learning, nhưng chúng tôi đã rất ngạc nhiên trước những gì chúng tôi tìm thấy: cải tiến cơ bản mà chúng tôi cần cho vấn đề này là quy mô. Đạt được và sử dụng quy mô đó không hề dễ dàng và là phần lớn nỗ lực nghiên cứu của chúng tôi!

OpenAI Five coi thế giới là một tập hợp các con số mà nó phải giải mã. Nó sử dụng cùng một mã học tập mục đích chung cho dù những con số đó biểu thị trạng thái của một trò chơi Dota (khoảng 20.000 con số) hay bàn tay rô-bốt (khoảng 200).

Để xây dựng OpenAI Five, chúng tôi đã tạo ra một hệ thống có tên là  Rapid  cho phép chúng tôi chạy PPO ở quy mô chưa từng có trước đây . Kết quả vượt quá mong đợi của chúng tôi và chúng tôi đã tạo ra một bot Dota đẳng cấp thế giới mà không gặp bất kỳ giới hạn hiệu suất cơ bản nào.

Sức mạnh đáng kinh ngạc của các thuật toán RL ngày nay phải trả giá bằng lượng kinh nghiệm khổng lồ, điều này có thể không thực tế khi không phải là trò chơi hoặc môi trường mô phỏng. Hạn chế này có thể không tệ như âm thanh—ví dụ, chúng tôi đã sử dụng Rapid để điều khiển một  bàn tay rô-bốt  khéo léo định hướng lại một khối, được đào tạo hoàn toàn trong mô phỏng và thực hiện trên một rô-bốt vật lý. Nhưng chúng tôi nghĩ rằng việc giảm lượng kinh nghiệm là một thách thức tiếp theo đối với RL.

Hôm nay, chúng tôi sẽ ngừng sử dụng OpenAI Five như một đối thủ cạnh tranh, nhưng những tiến bộ đạt được và công nghệ phát triển sẽ tiếp tục thúc đẩy công việc tương lai của chúng tôi. Đây không phải là kết thúc công việc Dota của chúng tôi—chúng tôi nghĩ rằng Dota là một môi trường thú vị và khó khăn hơn nhiều (và hiện đã được hiểu rõ!) để phát triển RL so với các môi trường tiêu chuẩn hiện nay.

Tính toán

Chiến thắng của OpenAI Five vào thứ Bảy, so với những thất bại của họ tại The International 2018, là do một thay đổi lớn: tăng 8 lần khả năng tính toán đào tạo. Trong nhiều giai đoạn trước của dự án, chúng tôi sẽ thúc đẩy tiến độ hơn nữa bằng cách tăng quy mô đào tạo của mình. Nhưng sau The International, chúng tôi đã dành phần lớn khả năng tính toán của dự án để đào tạo một mô hình OpenAI Five duy nhất. Vì vậy, chúng tôi đã tăng quy mô tính toán theo cách duy nhất có thể: đào tạo lâu hơn.

 

Tổng cộng, phiên bản hiện tại của OpenAI Five đã tiêu thụ 800 petaflop/giây-ngày và trải nghiệm khoảng 45.000 năm tự chơi Dota trong 10 tháng thời gian thực (tăng từ khoảng 10.000 năm trong 1,5 tháng thời gian thực kể từ The International), trung bình 250 năm trải nghiệm mô phỏng mỗi ngày. Phiên bản Chung kết của OpenAI Five có tỷ lệ thắng 99,9% so với phiên bản TI. B

Chuyển giao học tập

Phiên bản hiện tại của OpenAI Five đã được đào tạo liên tục kể từ tháng 6 năm 2018, mặc dù có những thay đổi về  kích thước mô hình (mở trong cửa sổ mới) và các quy tắc trò chơi (bao gồm một số bản cập nhật bản vá trò chơi khá lớn và các tính năng mới được triển khai). Trong mỗi trường hợp, chúng tôi có thể chuyển mô hình và tiếp tục đào tạo—một điều là một thách thức mở đối với RL trong các lĩnh vực khác. Theo hiểu biết của chúng tôi, đây là lần đầu tiên một tác nhân RL được đào tạo bằng cách sử dụng một đợt đào tạo kéo dài như vậy.

Để thực hiện được điều này, chúng tôi đã tiếp tục hoàn thiện  bộ công cụ phẫu thuật để có thể bắt đầu từ các thông số đã được đào tạo ngay cả khi có những thay đổi đáng kể về kiến ​​trúc.

Nhiều anh hùng hơn

Chúng tôi thấy rất ít sự chậm lại trong quá trình đào tạo từ  5  đến 18 anh hùng. Chúng tôi giả định rằng điều tương tự cũng đúng khi đào tạo nhiều anh hùng hơn nữa và sau The International, chúng tôi đã nỗ lực rất nhiều để tích hợp những anh hùng mới.

Chúng tôi đã dành nhiều tuần để luyện tập với nhóm anh hùng lên đến 25 anh hùng, đưa những anh hùng đó lên khoảng 5k MMR (khoảng phần trăm thứ 95 của người chơi Dota). Mặc dù họ vẫn đang cải thiện, nhưng họ không học đủ nhanh để đạt đến cấp độ chuyên nghiệp trước Chung kết. Chúng tôi vẫn chưa có thời gian để tìm hiểu lý do, nhưng các giả thuyết của chúng tôi bao gồm từ khả năng mô hình không đủ đến cần ghép trận tốt hơn cho nhóm anh hùng mở rộng cho đến việc yêu cầu nhiều thời gian luyện tập hơn cho những anh hùng mới để bắt kịp những anh hùng cũ. Hãy tưởng tượng xem con người sẽ khó khăn như thế nào khi học một anh hùng mới khi mọi người khác đã thành thạo anh hùng của họ!

Chúng tôi tin rằng những vấn đề này về cơ bản có thể giải quyết được và việc giải quyết chúng có thể rất thú vị. Phiên bản Finals chơi với 17 hero—chúng tôi đã loại bỏ Lich vì khả năng của anh ta đã thay đổi đáng kể trong phiên bản Dota 7.20.

Chế độ hợp tác

Thực sự thì cảm giác rất tuyệt; Viper của tôi đã hy sinh mạng sống của mình vì tôi vào một thời điểm nào đó. Anh ấy đã cố gắng giúp tôi, nghĩ rằng "Tôi chắc chắn cô ấy biết mình đang làm gì" và rồi rõ ràng là tôi không biết. Nhưng, bạn biết đấy, anh ấy tin tưởng tôi. Tôi không thấy điều đó nhiều với những người đồng đội [con người]. — Sheever (mở trong cửa sổ mới)

Khả năng chơi với con người của OpenAI Five đưa ra một viễn cảnh hấp dẫn cho tương lai của tương tác giữa con người và AI, nơi các hệ thống AI hợp tác và nâng cao trải nghiệm của con người. Những người thử nghiệm của chúng tôi báo cáo rằng họ cảm thấy được hỗ trợ bởi các đồng đội bot của mình, rằng họ đã học được từ việc chơi cùng các hệ thống tiên tiến này và nói chung đó là một trải nghiệm thú vị.

Lưu ý rằng OpenAI Five thể hiện khả năng học chuyển giao zero-shot—nó được huấn luyện để tất cả các anh hùng được điều khiển bởi các bản sao của chính nó, nhưng khái quát hóa để điều khiển một tập hợp con các anh hùng, chơi với hoặc chống lại con người. Chúng tôi rất ngạc nhiên khi điều này hoạt động tốt như vậy. Trên thực tế, chúng tôi đã cân nhắc thực hiện một trận đấu hợp tác tại The International nhưng cho rằng nó sẽ yêu cầu đào tạo chuyên sâu.

Đấu trường

Chúng tôi đang ra mắt OpenAI Five Arena, một thử nghiệm công khai cho phép bất kỳ ai chơi OpenAI Five ở cả chế độ cạnh tranh và hợp tác. Chúng tôi đã biết rằng bot 1v1 của chúng tôi có thể bị  khai thác  thông qua các chiến lược thông minh; chúng tôi không biết điều tương tự cũng đúng với OpenAI Five ở mức độ nào, nhưng chúng tôi rất vui mừng được mời cộng đồng giúp chúng tôi tìm hiểu!

Đấu trường (mở trong cửa sổ mới) mở vào thứ năm, ngày 18 tháng 4 lúc 6 giờ chiều PST và sẽ đóng vào 11:59 tối PST vào chủ nhật, ngày 21 tháng 4.  Vui lòng đăng ký để chúng tôi có thể đảm bảo có đủ dung lượng máy chủ trong khu vực của bạn! Kết quả của tất cả các trò chơi sẽ được tự động báo cáo lên bảng xếp hạng công khai của Arena.

Chúng tôi vô cùng biết ơn sự ủng hộ mà cộng đồng Dota đã dành cho chúng tôi trong suốt hai năm qua và chúng tôi hy vọng Arena cũng sẽ là một cách nhỏ để đền đáp. Hãy vui vẻ với nó!

Tiếp theo là gì

Chúng tôi sẽ công bố bản phân tích kỹ thuật hơn về OpenAI Five sau khi xem xét kết quả của OpenAI Five Arena.

Sau đó, chúng tôi sẽ tiếp tục làm việc với môi trường Dota 2 trong OpenAI. Chúng tôi đã thấy sự tiến bộ nhanh chóng trong hai năm qua về khả năng RL và chúng tôi nghĩ rằng Dota 2 sẽ tiếp tục giúp chúng tôi thúc đẩy những gì có thể—cho dù đạt được hiệu suất có năng lực từ ít dữ liệu hơn hay sự hợp tác thực sự giữa con người và AI.

Nếu bạn quan tâm đến việc phát triển năng lực AI và giúp thúc đẩy sứ mệnh đảm bảo AI mang lại lợi ích cho nhân loại, chúng tôi đang  tuyển dụng !

Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ 

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !