zalo
Chat ngay

Đánh giá chuẩn mực khám phá an toàn trong học tăng cường sâu

Tóm tắt

Các tác nhân học tăng cường (RL) cần khám phá môi trường của chúng để học các chính sách tối ưu thông qua thử nghiệm và sai sót. Trong nhiều môi trường, sự an toàn là mối quan tâm quan trọng và một số lỗi nhất định là không thể chấp nhận được: ví dụ, các hệ thống rô bốt tương tác với con người không bao giờ được gây thương tích cho con người trong khi khám phá. Mặc dù hiện tại, việc đào tạo các tác nhân RL chủ yếu hoặc hoàn toàn trong mô phỏng là điều bình thường, nơi mà các mối quan tâm về an toàn là tối thiểu, chúng tôi dự đoán rằng những thách thức trong việc mô phỏng sự phức tạp của thế giới thực (chẳng hạn như tương tác giữa con người và AI) sẽ gây ra sự thay đổi theo hướng đào tạo các tác nhân RL trực tiếp trong thế giới thực, nơi mà các mối quan tâm về an toàn là tối quan trọng. Do đó, chúng tôi cho rằng khám phá an toàn nên được coi là một lĩnh vực trọng tâm quan trọng đối với nghiên cứu RL và trong công trình này, chúng tôi đưa ra ba đóng góp để thúc đẩy nghiên cứu về khám phá an toàn. Đầu tiên, dựa trên nhiều công trình trước đây về học tăng cường an toàn, chúng tôi đề xuất chuẩn hóa RL bị ràng buộc làm hình thức chính cho khám phá an toàn. Thứ hai, chúng tôi trình bày bộ chuẩn Safety Gym, một danh mục mới về các môi trường điều khiển liên tục đa chiều để đo lường tiến độ nghiên cứu về RL bị ràng buộc. Cuối cùng, chúng tôi đánh giá chuẩn một số thuật toán RL sâu bị hạn chế trên môi trường Safety Gym để thiết lập các đường cơ sở mà công việc trong tương lai có thể dựa vào.

Xem thêm: mua tài khoản ChatGPT 4 chính hãng giá rẻ

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !