zalo
Chat ngay

Một kết nối giữa các mạng đối nghịch tạo sinh, học tăng cường ngược và các mô hình dựa trên năng lượng

Tóm tắt

Mạng đối nghịch tạo sinh (GAN) là một lớp mô hình tạo sinh mới được đề xuất trong đó một máy phát được đào tạo để tối ưu hóa hàm chi phí đang được học đồng thời bởi một bộ phân biệt. Mặc dù ý tưởng về việc học các hàm chi phí tương đối mới đối với lĩnh vực mô hình hóa tạo sinh, nhưng chi phí học từ lâu đã được nghiên cứu trong các miền học kiểm soát và học tăng cường (RL), thường là để học bắt chước từ các cuộc trình diễn. Trong các lĩnh vực này, hàm chi phí học cơ sở cho hành vi quan sát được gọi là học tăng cường ngược (IRL) hoặc điều khiển tối ưu ngược. Mặc dù thoạt đầu mối liên hệ giữa học chi phí trong RL và học chi phí trong mô hình tạo sinh có vẻ hời hợt, nhưng trong bài báo này, chúng tôi chỉ ra rằng một số phương pháp IRL thực tế tương đương về mặt toán học với GAN. Đặc biệt, chúng tôi chứng minh sự tương đương giữa thuật toán dựa trên mẫu cho IRL entropy cực đại và GAN ​​trong đó mật độ của máy phát có thể được đánh giá và được cung cấp dưới dạng đầu vào bổ sung cho bộ phân biệt. Điều thú vị là IRL entropy cực đại là một trường hợp đặc biệt của mô hình dựa trên năng lượng. Chúng tôi thảo luận về cách diễn giải GAN như một thuật toán để đào tạo các mô hình dựa trên năng lượng và liên hệ cách diễn giải này với các công trình gần đây khác nhằm kết nối GAN và EBM. Bằng cách chính thức nêu bật mối liên hệ giữa GAN, IRL và EBM, chúng tôi hy vọng rằng các nhà nghiên cứu trong cả ba cộng đồng có thể xác định và áp dụng tốt hơn các ý tưởng có thể chuyển giao từ lĩnh vực này sang lĩnh vực khác, đặc biệt là để phát triển các thuật toán ổn định và có khả năng mở rộng hơn: một thách thức lớn trong cả ba lĩnh vực.

Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ với nhiều ưu đãi đặc biệt hấp dẫn

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !