zalo
Chat ngay

Học cách mô phỏng tâm trí của người khác

Chúng tôi đang phát hành một thuật toán tính đến thực tế là các tác nhân khác cũng đang học và khám phá ra các chiến lược có lợi cho bản thân nhưng vẫn mang tính hợp tác như ăn miếng trả miếng trong thế tiến thoái lưỡng nan của tù nhân lặp đi lặp lại. Thuật toán này, Học với Nhận thức Học tập của Đối thủ (LOLA), là một bước nhỏ hướng tới các tác nhân mô phỏng tâm trí của người khác.

Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ

LOLA, một sự hợp tác giữa các nhà nghiên cứu tại OpenAI và Đại học Oxford, cho phép một tác nhân học tăng cường (RL) tính đến việc học của những tác nhân khác khi cập nhật chiến lược của riêng mình. Mỗi tác nhân LOLA điều chỉnh chính sách của mình để định hình việc học của các tác nhân khác theo cách có lợi. Điều này là có thể vì việc học của các tác nhân khác phụ thuộc vào phần thưởng và quan sát xảy ra trong môi trường, mà đến lượt nó có thể bị tác nhân ảnh hưởng.

Điều này có nghĩa là tác nhân LOLA, “Alice,” mô hình hóa cách các bản cập nhật tham số của tác nhân kia, “Bob,” phụ thuộc vào chính sách của chính nó và cách bản cập nhật tham số của Bob tác động đến phần thưởng dự kiến ​​trong tương lai của chính nó. Sau đó, Alice cập nhật chính sách của chính nó để làm cho bước học của các tác nhân khác, như Bob, có lợi hơn cho mục tiêu của chính nó.

Các tác nhân LOLA có thể khám phá ra các chiến lược có hiệu quả, có đi có lại trong các trò chơi như thế tiến thoái lưỡng nan của tù nhân lặp đi lặp lại, hoặc  trò chơi tiền xu. Ngược lại, các phương pháp học tăng cường sâu hiện đại, như Independent PPO, không học được các chiến lược như vậy trong các miền này. Các tác nhân này thường học cách thực hiện các hành động ích kỷ mà bỏ qua mục tiêu của các tác nhân khác. LOLA giải quyết vấn đề này bằng cách để các tác nhân hành động vì lợi ích cá nhân kết hợp với mục tiêu của người khác. Nó cũng hoạt động mà không cần các quy tắc thủ công hoặc môi trường được thiết lập để khuyến khích sự hợp tác.

Nguồn cảm hứng cho LOLA xuất phát từ cách mọi người hợp tác với nhau: Con người rất giỏi lý luận về cách hành động của họ có thể ảnh hưởng đến hành vi trong tương lai của những người khác và thường xuyên phát minh ra những cách hợp tác với người khác dẫn đến chiến thắng đôi bên cùng có lợi. Một trong những lý do khiến con người giỏi hợp tác với nhau là họ có cảm giác về một "lý thuyết về tâm trí" về những người khác, cho phép họ đưa ra các chiến lược mang lại lợi ích cho những người cộng tác với họ. Cho đến nay, loại biểu diễn "lý thuyết về tâm trí" này vẫn chưa có trong học tăng cường đa tác nhân sâu. Đối với một tác nhân RL sâu hiện đại, không có sự khác biệt cố hữu nào giữa một tác nhân học khác và một phần của môi trường, chẳng hạn như một cái cây.

Chìa khóa cho hiệu suất của LOLA là việc đưa vào thuật ngữ:

Ở đây, vế trái thể hiện cách lợi nhuận của Alice phụ thuộc vào sự thay đổi trong chính sách của Bob. Vế phải mô tả cách bước học của Bob phụ thuộc vào chính sách của Alice. Nhân hai thành phần đó về cơ bản sẽ đo lường cách Alice có thể thay đổi bước học của Bob sao cho dẫn đến sự gia tăng phần thưởng của Alice.

Điều này có nghĩa là khi chúng ta đào tạo các tác nhân của mình, chúng cố gắng tối ưu hóa lợi nhuận của mình sau một bước học dự kiến ​​của đối thủ. Bằng cách phân biệt thông qua bước học dự kiến ​​này, tác nhân có thể chủ động định hình bản cập nhật tham số của đối thủ theo cách làm tăng lợi nhuận của chính chúng.

Trong khi công thức trên giả định truy cập vào gradient thực và hessian của hai hàm giá trị, chúng ta cũng có thể ước tính tất cả các thuật ngữ có liên quan bằng cách sử dụng mẫu. Đặc biệt, thuật ngữ bậc hai có thể được ước tính bằng cách áp dụng định lý gradient chính sách, điều này làm cho LOLA phù hợp với bất kỳ thiết lập học tăng cường sâu nào.

LOLA có thể xử lý điều này bằng cách bao gồm một bước mô hình hóa đối thủ, trong đó chúng ta phù hợp với mô hình của đối thủ với các quỹ đạo quan sát được—dự đoán các tham số của các tác nhân khác dựa trên hành động của họ. Trong tương lai, chúng tôi muốn mở rộng điều này bằng cách suy ra các kiến ​​trúc và phần thưởng từ quá trình học quan sát được.

LOLA cho phép chúng tôi đào tạo các tác nhân thành công trong  trò chơi tiền xu, trong đó hai đặc vụ, đỏ và xanh, cạnh tranh với nhau để nhặt những đồng xu màu đỏ và xanh. Mỗi đặc vụ được một điểm khi nhặt bất kỳ đồng xu nào, nhưng nếu họ nhặt một đồng xu không phải màu của họ thì đặc vụ kia sẽ bị phạt -2. Do đó, nếu cả hai đặc vụ đều tham lam nhặt cả hai đồng xu, thì trung bình mọi người đều không nhận được điểm nào. Các đặc vụ LOLA học cách chủ yếu nhặt những đồng xu có màu của riêng họ, dẫn đến điểm số cao (hiển thị ở trên).

Nhược điểm

LOLA hoạt động tốt nhất khi sử dụng các lô lớn và triển khai toàn bộ để giảm sai số. Điều này có nghĩa là phương pháp này đòi hỏi cả bộ nhớ và tính toán chuyên sâu. Hơn nữa, theo mô hình đối thủ, LOLA có thể biểu hiện sự bất ổn mà chúng tôi hy vọng sẽ giải quyết bằng các cải tiến trong tương lai.

 

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !