.png)
Kết quả Dota 2 của chúng tôi cho thấy rằng tự chơi có thể đẩy nhanh hiệu suất của các hệ thống học máy từ mức thấp hơn nhiều so với con người lên mức siêu phàm, với điều kiện tính toán đủ. Trong vòng một tháng, hệ thống của chúng tôi đã đi từ việc chỉ ngang bằng một người chơi xếp hạng cao đến đánh bại những người chơi chuyên nghiệp hàng đầu và vẫn tiếp tục cải thiện kể từ đó. Các hệ thống học sâu có giám sát chỉ có thể tốt như các tập dữ liệu đào tạo của chúng, nhưng trong các hệ thống tự chơi, dữ liệu có sẵn sẽ tự động cải thiện khi tác nhân trở nên tốt hơn.
Dòng thời gian của dự án như sau. Để có một số góc nhìn, 15% người chơi có MMR dưới 1,5k; 58% người chơi có cấp độ dưới 3k; 99,99% có cấp độ dưới 7,5k.
+ Ngày 1 tháng 3: có kết quả học tăng cường cổ điển đầu tiên của chúng tôi(mở trong cửa sổ mới) trong một môi trường Dota đơn giản, nơi một Drow Ranger học cách thả diều một Earthshaker được lập trình cứng.
+ Ngày 8 tháng 5: Người kiểm tra 1,5k MMR cho biết anh ấy đang tiến bộ nhanh hơn bot.
+ Đầu tháng 6: đánh bại người thử nghiệm 1,5k MMR
+ Ngày 30 tháng 6: thắng nhiều trận nhất với người thử nghiệm 3k MMR
+ Ngày 8 tháng 7: khó khăn lắm mới giành được chiến thắng đầu tiên(mở trong cửa sổ mới) chống lại người thử nghiệm bán chuyên nghiệp có 7,5k MMR.
+ Ngày 7 tháng 8: đánh bại Blitz(mở trong cửa sổ mới) (6,2k cựu chuyên gia) 3–0, Pajkatt) (8,5k pro) 2–1 và CC&C (8,9k pro) 3–0. Tất cả đều đồng ý rằng Sumail sẽ tìm ra cách đánh bại nó.
+ Ngày 9 tháng 8: đánh bại Arteezy (10k pro, tuyển thủ hàng đầu) với tỷ số 10–0. Anh ấy nói Sumail có thể hiểu được con bot này.
+ Ngày 10 tháng 8: đánh bại Sumail (8,3k pro, top 1v1 player) với tỷ số 6–0, người nói rằng không thể đánh bại. Chơi bot ngày 9 tháng 8, nơi anh ấy có tỷ số 2–1.
+ Ngày 11 tháng 8: đánh bại Dendi (chuyên gia 7,3k, cựu vô địch thế giới, người hâm mộ trung thành) với tỷ số 2–0. Bot có tỷ lệ thắng là 60% so với bot ngày 10 tháng 8.
.png)
Nhiệm vụ
Trò chơi đầy đủ là 5v5, nhưng 1v1 cũng xuất hiện trong một số giải đấu. Bot của chúng tôi chơi theo các quy tắc giải đấu tiêu chuẩn—chúng tôi không thêm các đơn giản hóa dành riêng cho AI vào chế độ 1v1.
- Tài khoản ChatGPT 4 chính hãng giá rẻ TẠI ĐÂY
Bot hoạt động dựa trên các giao diện sau:
+ Quan sát: Các tính năng API của Bot, được thiết kế để có cùng một tập hợp các tính năng mà con người có thể nhìn thấy, liên quan đến anh hùng, quái vật, người đưa thư và địa hình gần anh hùng. Trò chơi có thể quan sát được một phần.
+ Hành động: Các hành động có thể truy cập được thông qua API của bot, được chọn ở tần suất tương đương với con người, bao gồm di chuyển đến một vị trí, tấn công một đơn vị hoặc sử dụng một vật phẩm.
+ Phản hồi: Bot nhận được phần thưởng khi chiến thắng và các số liệu cơ bản như sức khỏe và lần đánh cuối cùng.
Chúng tôi đã đưa vào danh sách trắng một vài chục bản dựng vật phẩm mà bot có thể sử dụng và chọn một bản để đánh giá. Chúng tôi cũng đã đào tạo riêng khối creep ban đầu bằng các kỹ thuật RL truyền thống, vì nó xảy ra trước khi đối thủ xuất hiện.
Quốc tế
Cách tiếp cận của chúng tôi, kết hợp một lượng nhỏ “huấn luyện” với tự chơi, cho phép chúng tôi cải thiện đáng kể đặc vụ của mình giữa Thứ Hai và Thứ Năm của The International. Vào tối Thứ Hai, Pajkatt đã giành chiến thắng bằng cách sử dụng một vật phẩm xây dựng khác thường (mua một cây đũa thần sớm). Chúng tôi đã thêm vật phẩm xây dựng này vào danh sách trắng đào tạo.
Khoảng 1 giờ chiều thứ Tư, chúng tôi đã thử nghiệm bot mới nhất. Bot sẽ mất một lượng máu lớn trong đợt đầu tiên. Chúng tôi nghĩ rằng có lẽ chúng tôi cần phải quay lại, nhưng nhận thấy rằng lối chơi tiếp theo thật tuyệt vời và hành vi của đợt đầu tiên là dụ những con bot khác hung hăng với nó. Việc tự chơi tiếp theo đã khắc phục được vấn đề, vì bot đã học được cách chống lại chiến lược dụ. Trong khi đó, chúng tôi đã ghép nó lại với bot của Thứ Hai chỉ cho đợt đầu tiên và hoàn tất quá trình này hai mươi phút trước khi Arteezy xuất hiện lúc 4 giờ chiều.
Sau các trận đấu với Arteezy, chúng tôi đã cập nhật mô hình chặn creep, giúp tăng TrueSkill thêm một điểm. Việc đào tạo thêm trước trận đấu của Sumail vào thứ năm đã tăng TrueSkill thêm hai điểm. Sumail chỉ ra rằng bot đã học được cách cast razes ngoài tầm nhìn của kẻ thù. Điều này là do một cơ chế mà chúng tôi chưa biết: các khả năng cast ngoài tầm nhìn của kẻ thù ngăn không cho kẻ thù nhận được một đòn tấn công bằng đũa phép.
Arteezy cũng đã chơi một trận đấu với người kiểm tra bán chuyên nghiệp 7,5k của chúng tôi. Arteezy đã giành chiến thắng trong toàn bộ trò chơi, nhưng người kiểm tra của chúng tôi vẫn có thể làm anh ta ngạc nhiên với một chiến lược mà anh ta đã học được từ bot. Arteezy sau đó nhận xét rằng đây là một chiến lược mà Paparazi đã sử dụng để chống lại anh ta một lần và không được thực hiện thường xuyên.
Bot khai thác
Mặc dù Sumail gọi bot là "bất khả chiến bại", nó vẫn có thể bị nhầm lẫn trong những tình huống rất khác so với những gì nó được nhìn thấy. Chúng tôi thiết lập bot tại một sự kiện LAN tại The International, nơi người chơi đã chơi hơn 1.000 ván để đánh bại bot bằng mọi cách có thể.
Những chiến công thành công thuộc về ba nguyên mẫu sau:
+ Kéo quái : có thể thu hút quái trên đường đuổi theo bạn ngay khi chúng xuất hiện (giữa các trụ cấp 2 và cấp 3 của bot). Bạn sẽ bị hàng chục quái đuổi theo khắp bản đồ và cuối cùng trụ của bot sẽ chết do hao mòn.
+ Orb of venom + wind lace : giúp bạn có lợi thế lớn về tốc độ di chuyển so với bot ở cấp độ 1 và có thể có first blood nhanh chóng. Bạn cần tận dụng lợi thế này để giết bot thêm một lần nữa.
+ Phá hủy cấp độ 1 : điều này đòi hỏi rất nhiều kỹ năng, nhưng một số người chơi MMR 6–7k đã có thể tiêu diệt bot ở cấp độ 1 bằng cách thành công phá hủy 3–5 lần trong một khoảng thời gian ngắn.
Việc sửa những vấn đề này cho 1v1 cũng tương tự như việc sửa lỗi Pajkatt. Nhưng đối với 5v5, những vấn đề như vậy không phải là khai thác, và chúng ta sẽ cần một hệ thống có thể xử lý những tình huống hoàn toàn kỳ lạ và kỳ quặc mà chưa từng thấy.
Cơ sở hạ tầng
Chúng tôi chưa sẵn sàng để nói về nội bộ của tác nhân—trước tiên, nhóm đang tập trung giải quyết chế độ 5v5.
Bước đầu tiên trong dự án là tìm ra cách chạy Dota 2 trên đám mây trên GPU vật lý. Trò chơi đưa ra thông báo lỗi khó hiểu trên các phiên bản đám mây GPU. Nhưng khi bắt đầu trên máy tính để bàn GPU cá nhân của Greg (là máy tính để bàn được mang lên sân khấu trong buổi biểu diễn), chúng tôi nhận thấy Dota khởi động khi màn hình được cắm vào, nhưng đưa ra thông báo lỗi tương tự khi rút phích cắm. Vì vậy, chúng tôi đã định cấu hình các phiên bản GPU đám mây của mình để giả vờ rằng có một màn hình vật lý được kết nối.
Dota không hỗ trợ máy chủ chuyên dụng tùy chỉnh tại thời điểm đó, nghĩa là việc chạy có thể mở rộng và không cần GPU chỉ có thể thực hiện được với tốc độ kết xuất phần mềm rất chậm. Sau đó, chúng tôi đã tạo một shim để loại bỏ hầu hết các lệnh gọi OpenGL, ngoại trừ những lệnh cần khởi động.
Đồng thời, chúng tôi đã viết một bot theo kịch bản—chúng tôi cần một đường cơ sở để so sánh (đặc biệt là vì các bot tích hợp không hoạt động tốt trên chế độ 1v1) và để hiểu tất cả ngữ nghĩa của API bot. Bot được lập trình đạt 70 lần đánh cuối trong mười phút trên một làn đường trống, nhưng vẫn thua những người bình thường. Bot 1v1 tốt nhất hiện tại của chúng tôi đạt khoảng 97 (nó phá hủy tòa tháp trước đó, vì vậy chúng tôi chỉ có thể suy rộng), và mức tối đa lý thuyết là 101.
5 đấu 5
1v1 thì phức tạp, nhưng 5v5 thì phức tạp vô cùng. Chúng tôi biết rằng chúng tôi cần phải đẩy xa hơn nữa giới hạn của AI để giải quyết được vấn đề này.
Một nơi đã được thiết lập tốt để bắt đầu là với việc sao chép hành vi. Dota có khoảng một triệu trận đấu công khai mỗi ngày. Các bản phát lại cho các trận đấu này được lưu trữ trên máy chủ của Valve trong hai tuần. Chúng tôi đã tải xuống mọi bản phát lại cấp độ chuyên gia kể từ tháng 11 năm ngoái và đã tích lũy được một tập dữ liệu gồm 5,8 triệu trò chơi (mỗi trò chơi kéo dài khoảng 45 phút với 10 người). Chúng tôi sử dụng OpenDota để khám phá những bản phát lại này và đang quyên góp 12.000 đô la (10 năm mục tiêu gây quỹ của họ) để hỗ trợ dự án.
Chúng tôi còn nhiều ý tưởng khác nữa và đang tuyển dụng các kỹ sư (phải hứng thú với máy học, nhưng không cần phải là chuyên gia) và các nhà nghiên cứu để giúp chúng tôi thực hiện điều này. Chúng tôi cảm ơn Microsoft Azure và Valve vì đã hỗ trợ chúng tôi trong nỗ lực này.
Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ

Cách đổi Mật khẩu Chat GPT - Hướng dẫn đổi Pass Chat GPT 100% Thành công
Hướng dẫn Cách đăng nhập Chat GPT Nhanh nhất | Có hỗ trợ Miễn phí qua Teamview-Ultraview
Chat GPT Plus là gì? So sánh Chat GPT Plus với Chat GPT Miễn phí
Chat GPT bị giới hạn giải thích vì sao và cách khắc phục
Chat GPT là gì ? Cách đăng Ký Chat GPT Miễn Phí tại Việt Nam