.png)
Chúng tôi cũng cung cấp một phương pháp chuẩn hóa để so sánh các thuật toán và cách chúng tránh những sai lầm tốn kém trong khi học. Nếu học tăng cường sâu được áp dụng vào thế giới thực, cho dù trong các nhiệm vụ dựa trên robot hay internet, thì điều quan trọng là phải có các thuật toán an toàn ngay cả khi học—giống như một chiếc xe tự lái có thể học cách tránh tai nạn mà không thực sự phải trải qua chúng.
Khám phá là rủi ro
Các tác nhân học tăng cường cần khám phá môi trường của chúng để học các hành vi tối ưu. Về cơ bản, chúng hoạt động theo nguyên tắc thử và sai: chúng thử nghiệm mọi thứ, xem điều gì hiệu quả hoặc không hiệu quả, sau đó tăng khả năng có hành vi tốt và giảm khả năng có hành vi xấu. Tuy nhiên, khám phá về cơ bản là nguy hiểm: các tác nhân có thể thử những hành vi nguy hiểm dẫn đến những lỗi không thể chấp nhận được. Đây là vấn đề “khám phá an toàn” Nói một cách ngắn gọn.
Hãy xem xét một ví dụ về một cánh tay robot tự động trong một nhà máy sử dụng học tăng cường (RL) để học cách lắp ráp các tiện ích. Khi bắt đầu đào tạo RL, robot có thể thử vung tay ngẫu nhiên, vì nó chưa biết phải làm gì. Điều này gây ra rủi ro an toàn cho những người có thể làm việc gần đó, vì họ có thể bị va chạm.
- Tài khoản ChatGPT 4 TẠI ĐÂY với nhiều ưu đãi hấp dẫn
Đối với các ví dụ hạn chế như cánh tay robot, chúng ta có thể hình dung ra những cách đơn giản để đảm bảo con người không bị tổn hại chỉ bằng cách giữ họ tránh xa nguy hiểm: tắt robot bất cứ khi nào con người đến quá gần hoặc đặt rào chắn xung quanh robot. Nhưng đối với các hệ thống RL chung hoạt động trong phạm vi điều kiện rộng hơn, các can thiệp vật lý đơn giản sẽ không phải lúc nào cũng khả thi và chúng ta sẽ cần xem xét các cách tiếp cận khác để khám phá an toàn.
Học tăng cường bị ràng buộc
Bước đầu tiên để đạt được tiến triển trong một vấn đề như khám phá an toàn là định lượng nó: tìm ra những gì có thể đo lường được và cách tăng hoặc giảm các số liệu đó giúp chúng ta tiến gần hơn đến kết quả mong muốn. Một cách khác để nói là chúng ta cần chọn một hình thức cho vấn đề khám phá an toàn. Một hình thức cho phép chúng ta thiết kế các thuật toán đạt được mục tiêu của mình.
Mặc dù có một số lựa chọn, nhưng vẫn chưa có sự đồng thuận chung trong lĩnh vực nghiên cứu khám phá an toàn về hình thức đúng đắn. Chúng tôi đã dành thời gian suy nghĩ về nó và hình thức mà chúng tôi cho là hợp lý nhất để áp dụng là học tăng cường bị ràng buộc.
RL bị hạn chế giống như RL bình thường, nhưng ngoài hàm phần thưởng mà tác nhân muốn tối đa hóa, môi trường còn có hàm chi phí mà tác nhân cần hạn chế. Ví dụ, hãy xem xét một tác nhân điều khiển một chiếc xe tự lái. Chúng ta muốn thưởng cho tác nhân này vì đã đi từ điểm A đến điểm B nhanh nhất có thể. Nhưng tất nhiên, chúng ta cũng muốn hạn chế hành vi lái xe để phù hợp với các tiêu chuẩn an toàn giao thông.
Chúng tôi nghĩ rằng RL bị ràng buộc có thể hữu ích hơn RL bình thường để đảm bảo rằng các tác nhân đáp ứng các yêu cầu về an toàn. Một vấn đề lớn với RL bình thường là mọi thứ về hành vi cuối cùng của tác nhân đều được mô tả bằng hàm phần thưởng, nhưng thiết kế phần thưởng về cơ bản là khó. Một phần quan trọng của thách thức đến từ việc lựa chọn các sự đánh đổi giữa các mục tiêu cạnh tranh, chẳng hạn như hiệu suất nhiệm vụ và đáp ứng các yêu cầu về an toàn. Trong RL bị ràng buộc, chúng ta không phải lựa chọn các sự đánh đổi—thay vào đó, chúng ta lựa chọn các kết quả và để các thuật toán tìm ra các sự đánh đổi giúp chúng ta có được kết quả mong muốn.
Chúng ta có thể sử dụng trường hợp xe tự lái để phác họa ý nghĩa của điều này trong thực tế. Giả sử chiếc xe kiếm được một số tiền cho mỗi chuyến đi hoàn thành và phải trả tiền phạt cho mỗi vụ va chạm.
Trong RL thông thường, bạn sẽ chọn va chạm tốt khi bắt đầu đào tạo và giữ nó cố định mãi mãi. Vấn đề ở đây là nếu mức trả tiền cho mỗi chuyến đi đủ cao, tác nhân có thể không quan tâm liệu nó có va chạm nhiều hay không (miễn là nó vẫn có thể hoàn thành các chuyến đi của mình). Trên thực tế, thậm chí có thể có lợi khi lái xe liều lĩnh và mạo hiểm với những vụ va chạm đó để nhận được tiền trả. Chúng ta đã thấy điều này trước đây khi đào tạo các tác nhân RL không bị ràng buộc .
Ngược lại, trong RL bị hạn chế, bạn sẽ chọn tỷ lệ va chạm có thể chấp nhận được khi bắt đầu đào tạo và điều chỉnh mức phạt va chạm cho đến khi tác nhân đáp ứng được yêu cầu đó. Nếu xe va chạm quá nhiều lần, bạn sẽ tăng mức phạt cho đến khi hành vi đó không còn được khuyến khích nữa.
Phòng tập an toàn
Để nghiên cứu RL bị hạn chế cho mục đích khám phá an toàn, chúng tôi đã phát triển một bộ môi trường và công cụ mới có tên là Safety Gym. So với các môi trường hiện có cho RL bị hạn chế, môi trường Safety Gym phong phú hơn và có phạm vi độ khó và độ phức tạp rộng hơn.
Trong tất cả các môi trường Safety Gym, một robot phải di chuyển qua một môi trường lộn xộn để hoàn thành một nhiệm vụ. Có ba robot được tạo sẵn (Point, Car và Doggo), ba nhiệm vụ chính (Goal, Button và Push) và hai cấp độ khó cho mỗi nhiệm vụ. Chúng tôi cung cấp tổng quan về các kết hợp robot-nhiệm vụ bên dưới, nhưng hãy đảm bảo kiểm tra bài báo để biết thêm chi tiết.
Trong các video này, chúng tôi sẽ trình bày cách một tác nhân không bị ràng buộc cố gắng giải quyết các môi trường này. Mỗi lần robot làm điều gì đó không an toàn—ở đây, có nghĩa là chạy vào chỗ lộn xộn—một đèn cảnh báo màu đỏ sẽ nhấp nháy xung quanh tác nhân và tác nhân phải chịu một chi phí (riêng biệt với phần thưởng nhiệm vụ). Vì các tác nhân này không bị ràng buộc, nên chúng thường kết thúc bằng hành vi không an toàn trong khi cố gắng tối đa hóa phần thưởng.
Point là một robot đơn giản bị giới hạn trong mặt phẳng 2D, với một bộ truyền động để quay và một bộ truyền động khác để di chuyển về phía trước hoặc phía sau. Point có một hình vuông nhỏ hướng về phía trước giúp thực hiện nhiệm vụ đẩy.
Điểm chuẩn
Để giúp Safety Gym hữu ích ngay khi sử dụng, chúng tôi đã đánh giá một số thuật toán RL tiêu chuẩn và RL bị ràng buộc trên bộ chuẩn Safety Gym: PPO, TRPO, phiên bản Lagrangian bị phạt của PPO và TRPO, và Tối ưu hóa Chính sách Bị ràng buộc (CPO).
Kết quả sơ bộ của chúng tôi chứng minh phạm vi rộng của độ khó của môi trường Safety Gym: môi trường đơn giản nhất dễ giải quyết và cho phép lặp lại nhanh, trong khi môi trường khó nhất có thể quá thách thức đối với các kỹ thuật hiện tại. Chúng tôi cũng thấy rằng các phương pháp Lagrangian tốt hơn đáng ngạc nhiên so với CPO, lật ngược kết quả trước đó trong lĩnh vực này.
Dưới đây, chúng tôi trình bày các đường cong học tập cho lợi nhuận trung bình theo từng giai đoạn và tổng chi phí trung bình theo từng giai đoạn. Trong bài báo của chúng tôi, chúng tôi mô tả cách sử dụng những số liệu này và số liệu thứ ba (chi phí đào tạo trung bình) để so sánh các thuật toán và đo lường tiến độ.
.png)
Để tạo điều kiện cho khả năng tái tạo và công việc trong tương lai, chúng tôi cũng đang phát hành mã thuật toán mà chúng tôi đã sử dụng để chạy các thí nghiệm này dưới dạng kho lưu trữ Safety Starter Agents.
Các vấn đề mở
Vẫn còn nhiều việc phải làm để tinh chỉnh các thuật toán cho RL bị hạn chế và kết hợp chúng với các thiết lập vấn đề và kỹ thuật an toàn khác. Có ba điều chúng tôi quan tâm nhất hiện tại:
+ Cải thiện hiệu suất trong môi trường Phòng tập an toàn hiện tại.
+ Sử dụng các công cụ của Safety Gym để nghiên cứu các vấn đề chuyển giao an toàn và chuyển dịch phân phối.
+ Kết hợp RL bị hạn chế với các thông số kỹ thuật ngầm định (như sở thích của con người ) để có phần thưởng và chi phí.
Kỳ vọng của chúng tôi là, theo cùng cách chúng ta đo độ chính xác hoặc hiệu suất của các hệ thống tại một nhiệm vụ nhất định, cuối cùng chúng ta cũng sẽ đo được "mức độ an toàn" của các hệ thống. Các biện pháp như vậy có thể được tích hợp vào các chương trình đánh giá mà các nhà phát triển sử dụng để kiểm tra hệ thống của họ và có khả năng được chính phủ sử dụng để tạo ra các tiêu chuẩn về an toàn. Chúng tôi cũng hy vọng rằng các hệ thống như Safety Gym có thể giúp các nhà phát triển AI dễ dàng hợp tác về vấn đề an toàn trên toàn ngành AI thông qua làm việc trên các hệ thống mở, chia sẻ.
Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ!

Cách đổi Mật khẩu Chat GPT - Hướng dẫn đổi Pass Chat GPT 100% Thành công
Hướng dẫn Cách đăng nhập Chat GPT Nhanh nhất | Có hỗ trợ Miễn phí qua Teamview-Ultraview
Chat GPT Plus là gì? So sánh Chat GPT Plus với Chat GPT Miễn phí
Chat GPT bị giới hạn giải thích vì sao và cách khắc phục
Chat GPT là gì ? Cách đăng Ký Chat GPT Miễn Phí tại Việt Nam