Học bắt chước ngôi thứ ba

Tóm tắt

Học tăng cường (RL) giúp đào tạo các tác nhân có khả năng đạt được các mục tiêu phức tạp trong môi trường phức tạp và không chắc chắn. Một khó khăn chính trong học tăng cường là chỉ định một hàm phần thưởng để tác nhân tối ưu hóa. Theo truyền thống, học bắt chước trong RL đã được sử dụng để khắc phục vấn đề này. Thật không may, các phương pháp học bắt chước cho đến nay có xu hướng yêu cầu các cuộc trình diễn được cung cấp ở ngôi thứ nhất: tác nhân được cung cấp một chuỗi các trạng thái và thông số kỹ thuật về các hành động mà nó phải thực hiện. Mặc dù mạnh mẽ, nhưng loại học bắt chước này bị hạn chế bởi vấn đề tương đối khó khăn là thu thập các cuộc trình diễn ở ngôi thứ nhất. Con người giải quyết vấn đề này bằng cách học hỏi từ các cuộc trình diễn ở ngôi thứ ba: họ quan sát những người khác thực hiện nhiệm vụ, suy ra nhiệm vụ và tự mình hoàn thành nhiệm vụ đó.

Xem thêm: mua tài khoản ChatGPT 4 chính hãng giá rẻ với nhiều ưu đãi đặc biệt!

Trong bài báo này, chúng tôi trình bày một phương pháp học bắt chước ngôi thứ ba không giám sát. Ở đây, ngôi thứ ba đề cập đến việc đào tạo một tác nhân để đạt được một mục tiêu đơn giản một cách chính xác trong một môi trường đơn giản khi được cung cấp một bản trình diễn về một giáo viên đạt được cùng một mục tiêu nhưng từ một góc nhìn khác; và không giám sát đề cập đến thực tế là tác nhân chỉ nhận được những bản trình diễn ngôi thứ ba này và không được cung cấp sự tương ứng giữa trạng thái của giáo viên và trạng thái của học sinh. Hiểu biết chính về phương pháp của chúng tôi là những tiến bộ gần đây từ sự nhầm lẫn miền có thể được sử dụng để tạo ra các tính năng không phụ thuộc miền, rất quan trọng trong quá trình đào tạo. Để xác thực cách tiếp cận của mình, chúng tôi báo cáo các thí nghiệm thành công về việc học từ các bản trình diễn ngôi thứ ba trong miền điểm khối, miền reacher và con lắc ngược.