zalo
Chat ngay

Học các biểu diễn chính sách trong hệ thống đa tác nhân

Tóm tắt

Mô hình hóa hành vi của tác nhân là trọng tâm để hiểu sự xuất hiện của các hiện tượng phức tạp trong các hệ thống đa tác nhân. Công việc trước đây trong mô hình hóa tác nhân phần lớn là nhiệm vụ cụ thể và được thúc đẩy bởi kiến ​​thức trước đó về miền cụ thể kỹ thuật thủ công. Chúng tôi đề xuất một khuôn khổ học tập chung để mô hình hóa hành vi của tác nhân trong bất kỳ hệ thống đa tác nhân nào chỉ bằng cách sử dụng một số ít dữ liệu tương tác. Khuôn khổ của chúng tôi đưa mô hình hóa tác nhân vào như một vấn đề học tập biểu diễn. Do đó, chúng tôi xây dựng một mục tiêu mới lấy cảm hứng từ học tập bắt chước và nhận dạng tác nhân và thiết kế một thuật toán để học không giám sát các biểu diễn của chính sách tác nhân. Chúng tôi chứng minh theo kinh nghiệm tính hữu ích của khuôn khổ được đề xuất trong một môi trường cạnh tranh đa chiều đầy thách thức để kiểm soát liên tục và một môi trường hợp tác để giao tiếp, trên các nhiệm vụ dự đoán có giám sát, phân cụ không giám sát và tối ưu hóa chính sách bằng cách sử dụng học tăng cường sâu.

Xem thêm: mua tài khoản ChatGPT 4 chính hãng giá rẻ

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !