zalo
Chat ngay

Học hỏi từ sở thích của con người

 

Một bước tiến tới xây dựng hệ thống AI an toàn là loại bỏ nhu cầu con người phải viết hàm mục tiêu, vì sử dụng một proxy đơn giản cho một mục tiêu phức tạp hoặc làm sai một chút mục tiêu phức tạp có thể dẫn đến hành vi không mong muốn và thậm chí nguy hiểm. Với sự hợp tác của nhóm an toàn của DeepMind, chúng tôi đã phát triển một thuật toán có thể suy ra điều con người muốn bằng cách được cho biết hành vi nào trong hai hành vi được đề xuất là tốt hơn.

Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ

Chúng tôi trình bày một thuật toán học tập sử dụng một lượng nhỏ phản hồi của con người để giải quyết các môi trường RL hiện đại. Các hệ thống học máy với phản hồi của con người có là đã khám phá trước, nhưng chúng tôi đã mở rộng phương pháp tiếp cận để có thể thực hiện các nhiệm vụ phức tạp hơn nhiều. Thuật toán của chúng tôi cần 900 bit phản hồi từ người đánh giá để học cách lật ngược—một nhiệm vụ có vẻ đơn giản nhưng dễ đánh giá nhưng khó xác định.

Tác nhân AI của chúng tôi bắt đầu bằng cách hành động ngẫu nhiên trong môi trường. Theo định kỳ, hai đoạn video về hành vi của nó được đưa cho một con người và con người quyết định đoạn nào trong hai đoạn gần nhất với việc hoàn thành mục tiêu của mình—trong trường hợp này là một cú lộn ngược. AI dần dần xây dựng một mô hình về mục tiêu của nhiệm vụ bằng cách tìm hàm phần thưởng giải thích tốt nhất cho các phán đoán của con người. Sau đó, nó sử dụng RL để học cách đạt được mục tiêu đó. Khi hành vi của nó được cải thiện, nó tiếp tục yêu cầu phản hồi của con người về các cặp quỹ đạo mà nó không chắc chắn nhất về việc cái nào tốt hơn và tinh chỉnh thêm sự hiểu biết của nó về mục tiêu.

Cách tiếp cận của chúng tôi chứng minh hiệu quả mẫu đầy hứa hẹn—như đã nêu trước đó, video backflip yêu cầu dưới 1000 bit phản hồi của con người. Chỉ mất chưa đến một giờ thời gian của người đánh giá, trong khi ở chế độ nền, chính sách tích lũy được khoảng 70 giờ kinh nghiệm tổng thể (được mô phỏng với tốc độ nhanh hơn nhiều so với thời gian thực). Chúng tôi sẽ tiếp tục làm việc để giảm lượng phản hồi mà con người cần cung cấp. Bạn có thể xem phiên bản tăng tốc của quy trình đào tạo trong video sau.

Chúng tôi đã thử nghiệm phương pháp của mình trên một số nhiệm vụ trong lĩnh vực mô phỏng robot và Atari (mà không được cấp quyền truy cập vào chức năng phần thưởng: vì vậy trong Atari, không được cấp quyền truy cập vào điểm số trò chơi). Các tác nhân của chúng tôi có thể học hỏi từ phản hồi của con người để đạt được hiệu suất mạnh mẽ và đôi khi là siêu phàm trong nhiều môi trường mà chúng tôi đã thử nghiệm. Trong hình ảnh động sau, bạn có thể thấy các tác nhân được đào tạo bằng kỹ thuật của chúng tôi đang chơi nhiều trò chơi Atari khác nhau. Thanh ngang ở phía bên phải của mỗi khung hình biểu thị dự đoán của từng tác nhân về mức độ mà người đánh giá là con người sẽ chấp thuận hành vi hiện tại của họ. Các hình ảnh trực quan này chỉ ra rằng các tác nhân được đào tạo bằng phản hồi của con người học cách coi trọng oxy trong Seaquest (bên trái), dự đoán phần thưởng trong Breakout và Pong (ở giữa) hoặc tìm ra cách phục hồi sau sự cố trong Enduro (bên phải).

Lưu ý rằng không cần phản hồi phải phù hợp với hàm thưởng bình thường của môi trường: ví dụ, chúng ta có thể đào tạo các tác nhân của mình để giữ chính xác ngang bằng với những chiếc xe khác trong Enduro thay vì tối đa hóa điểm số trò chơi bằng cách vượt qua chúng. Đôi khi chúng ta cũng thấy rằng học từ phản hồi tốt hơn học tăng cường với hàm thưởng bình thường, vì con người định hình phần thưởng tốt hơn bất kỳ ai viết phần thưởng của môi trường.

Thách thức

Hiệu suất của thuật toán của chúng tôi chỉ tốt bằng trực giác của người đánh giá về hành vi nào  trông  đúng, vì vậy nếu con người không nắm bắt tốt nhiệm vụ, họ có thể không đưa ra nhiều phản hồi hữu ích. Liên quan đến điều này, trong một số lĩnh vực, hệ thống của chúng tôi có thể khiến các tác nhân áp dụng các chính sách đánh lừa người đánh giá. Ví dụ, một rô-bốt được cho là sẽ nắm bắt các vật phẩm thay vào đó lại đặt bộ điều khiển của nó ở giữa máy ảnh và vật thể để nó chỉ  có vẻ  như đang nắm bắt vật thể, như minh họa bên dưới.

Nghiên cứu được mô tả trong bài đăng này được thực hiện với sự hợp tác của Jan Leike, Miljan Martic và Shane Legg tại DeepMind. Hai tổ chức của chúng tôi có kế hoạch tiếp tục hợp tác về các chủ đề liên quan đến an toàn AI dài hạn. Chúng tôi cho rằng các kỹ thuật như thế này là một bước tiến tới các hệ thống AI an toàn có khả năng học các mục tiêu lấy con người làm trung tâm và có thể bổ sung và mở rộng các phương pháp hiện có như học tăng cường và học bắt chước. 

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !