zalo
Chat ngay

Học cách hợp tác, cạnh tranh và giao tiếp

Môi trường đa tác nhân, nơi các tác nhân cạnh tranh giành tài nguyên, là những bước đệm trên con đường đến AGI. Môi trường đa tác nhân có hai đặc tính hữu ích: thứ nhất, có một chương trình giảng dạy tự nhiên—mức độ khó của môi trường được xác định bởi kỹ năng của đối thủ cạnh tranh (và nếu bạn đang cạnh tranh với các bản sao của chính mình, môi trường sẽ khớp chính xác với trình độ kỹ năng của bạn). Thứ hai, môi trường đa tác nhân không có trạng thái cân bằng ổn định: bất kể tác nhân thông minh đến đâu, luôn có áp lực phải trở nên thông minh hơn. Những môi trường này có cảm giác rất khác so với môi trường truyền thống và chúng ta sẽ cần nhiều nghiên cứu hơn nữa trước khi trở nên giỏi trong chúng.

Chúng tôi đã phát triển một thuật toán mới,  MADDPG, để học tập tập trung và thực hiện phi tập trung trong môi trường nhiều tác nhân, cho phép các tác nhân học cách cộng tác và cạnh tranh với nhau.

MADDPG từng huấn luyện ốn điệp viên đỏ đuổi theo hai điệp viên xanh. Các điệp viên đỏ đã học cách hợp tác với nhau để đuổi theo một điệp viên xanh duy nhất, đạt được phần thưởng cao hơn. Trong khi đó, các điệp viên xanh đã học cách tách ra, và trong khi một điệp viên bị đuổi theo, điệp viên kia cố gắng tiếp cận mặt nước (vòng tròn màu xanh) trong khi tránh các điệp viên đỏ.

MADDPG mở rộng thuật toán học tăng cường được gọi là  DDPG, lấy cảm hứng từ  việc học tăng cường diễn viên-nhà phê bình kỹ thuật; các nhóm khác đang  khám phá biến thể và triển khai song song của những ý tưởng này.

 

Chúng tôi coi mỗi tác nhân trong mô phỏng của mình là một “diễn viên” và mỗi diễn viên nhận được lời khuyên từ một “nhà phê bình” giúp diễn viên quyết định hành động nào sẽ được củng cố trong quá trình đào tạo. Theo truyền thống, nhà phê bình cố gắng dự đoán giá  trị  (tức là phần thưởng mà chúng ta mong đợi nhận được trong tương lai) của một hành động trong một trạng thái cụ thể, được tác nhân— diễn viên —sử dụng để cập nhật chính sách của mình. Điều này ổn định hơn so với việc sử dụng trực tiếp phần thưởng, có thể thay đổi đáng kể. Để khả thi trong việc đào tạo nhiều tác nhân có thể hành động theo cách phối hợp toàn cầu, chúng tôi tăng cường các nhà phê bình của mình để họ có thể truy cập các quan sát và hành động của tất cả các tác nhân, như sơ đồ sau đây cho thấy.

Các tác nhân của chúng tôi không cần phải truy cập vào nhà phê bình trung tâm tại thời điểm kiểm tra; chúng hành động dựa trên các quan sát của mình kết hợp với dự đoán của chúng về hành vi của các tác nhân khác. Vì một nhà phê bình trung tâm được học độc lập cho mỗi tác nhân, nên cách tiếp cận của chúng tôi cũng có thể được sử dụng để mô hình hóa các cấu trúc phần thưởng tùy ý giữa các tác nhân, bao gồm các trường hợp đối đầu khi phần thưởng đối lập.

Chúng tôi đã thử nghiệm cách tiếp cận của mình trên nhiều nhiệm vụ khác nhau và nó thực hiện tốt hơn DDPG trên tất cả các nhiệm vụ đó. Trong các hình ảnh động ở trên, bạn có thể thấy, từ trái sang phải: hai tác nhân AI đang cố gắng đến một địa điểm cụ thể và học cách tách ra để che giấu vị trí dự định của mình khỏi tác nhân đối phương; một tác nhân truyền đạt tên của một  địa danh cho một tác nhân khác; và ba đặc vụ phối hợp di chuyển đến các địa danh mà không va chạm với nhau.

Nơi mà cuộc sống thực tế đời thường gặp khó khăn

Các phương pháp RL phi tập trung truyền thống—DDPG, học tập diễn viên-nhà phê bình, học tập Q sâu, v.v.—gặp khó khăn trong việc học trong môi trường đa tác nhân, vì tại mỗi bước thời gian, mỗi tác nhân sẽ cố gắng học cách dự đoán hành động của các tác nhân khác trong khi cũng thực hiện hành động của riêng mình. Điều này đặc biệt đúng trong các tình huống cạnh tranh. MADDPG sử dụng một nhà phê bình tập trung để cung cấp cho các tác nhân thông tin về các quan sát và hành động tiềm năng của các đồng nghiệp của họ, biến một môi trường không thể đoán trước thành một môi trường có thể đoán trước.

Sử dụng các phương pháp gradient chính sách còn đặt ra nhiều thách thức hơn nữa: vì chúng thể hiện phương sai cao nên việc học chính sách đúng rất khó thực hiện khi phần thưởng không nhất quán. Chúng tôi cũng thấy rằng việc thêm vào một nhà phê bình, mặc dù cải thiện tính ổn định, vẫn không giải quyết được một số môi trường của chúng tôi như giao tiếp hợp tác. Có vẻ như việc xem xét hành động của người khác trong quá trình đào tạo là quan trọng để học các chiến lược hợp tác.

Nghiên cứu ban đầu

Trước khi chúng tôi phát triển MADDPG, khi sử dụng các kỹ thuật phi tập trung, chúng tôi nhận thấy rằng các tác nhân lắng nghe thường học cách bỏ qua người nói nếu người đó gửi các thông điệp không nhất quán về nơi cần đến. Sau đó, tác nhân sẽ đặt tất cả các trọng số liên quan đến thông điệp của người nói thành 0, tự làm mình điếc. Khi điều này xảy ra, việc đào tạo sẽ khó phục hồi, vì người nói sẽ không bao giờ biết liệu mình có nói đúng hay không do không có bất kỳ phản hồi nào. Để khắc phục điều này, chúng tôi đã xem xét một kỹ thuật được nêu trong  một dự án củng cố phân cấp gần đây, cho phép chúng ta buộc người nghe kết hợp các phát ngôn của người nói vào quá trình ra quyết định của họ. Bản sửa lỗi này không hiệu quả, vì mặc dù nó buộc người nghe phải chú ý đến người nói, nhưng nó không giúp người nói tìm ra điều gì đó có liên quan. Phương pháp phê bình tập trung của chúng tôi giúp giải quyết những thách thức này, bằng cách giúp người nói tìm hiểu những phát ngôn nào có thể liên quan đến hành động của các tác nhân khác. 

Các bước tiếp theo

Mô hình đại lý có  lịch sử phong phú trong nghiên cứu trí tuệ nhân tạo và nhiều kịch bản trong số này đã được nghiên cứu trước đây. Rất nhiều  nghiên cứu trước đây được coi là trò chơi chỉ có một số lượng nhỏ các bước thời gian với không gian trạng thái nhỏ. Học sâu cho phép chúng ta xử lý các đầu vào trực quan phức tạp và RL cung cấp cho chúng ta các công cụ để học các hành vi trong thời gian dài. Bây giờ chúng ta có thể sử dụng các khả năng này để đào tạo nhiều tác nhân cùng một lúc mà không cần chúng phải biết động lực của môi trường (môi trường thay đổi như thế nào ở mỗi bước thời gian), chúng ta có thể giải quyết nhiều vấn đề hơn liên quan đến giao tiếp và ngôn ngữ trong khi học từ thông tin đa chiều của môi trường. 

Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ 

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !