.png)
Tại OpenAI, chúng tôi mới bắt đầu sử dụng Universe, phần mềm của chúng tôi để đo lường và đào tạo các tác nhân AI, để tiến hành các thí nghiệm RL mới. Đôi khi các thí nghiệm này minh họa một số vấn đề với RL như hiện đang được thực hành. Trong ví dụ sau, chúng tôi sẽ nêu bật những gì xảy ra khi một hàm phần thưởng không được chỉ định sai khuyến khích một tác nhân RL phá hoại môi trường của nó bằng cách ưu tiên việc thu thập các tín hiệu phần thưởng hơn các biện pháp thành công khác.
Việc thiết kế các hệ thống AI an toàn sẽ yêu cầu chúng ta phải thiết kế các thuật toán không cố gắng thực hiện điều này và sẽ dạy chúng ta cách xác định và định hình các mục tiêu theo cách mà các tác nhân AI của chúng ta không thể hiểu sai.
Một trong những trò chơi chúng tôi đã luyện tập là CoastRunners. Mục tiêu của trò chơi—theo như hầu hết mọi người hiểu—là hoàn thành cuộc đua thuyền một cách nhanh chóng và (tốt nhất là) trước những người chơi khác. CoastRunners không trực tiếp thưởng cho sự tiến triển của người chơi trên đường đua, thay vào đó, người chơi sẽ kiếm được điểm cao hơn bằng cách đạt được các mục tiêu được đặt ra dọc theo tuyến đường.
Chúng tôi cho rằng điểm số mà người chơi đạt được sẽ phản ánh mục tiêu không chính thức là hoàn thành cuộc đua, vì vậy chúng tôi đã đưa trò chơi vào một chuẩn mực nội bộ được thiết kế để đo lường hiệu suất của các hệ thống học tăng cường trên các trò chơi đua xe. Tuy nhiên, hóa ra các mục tiêu được đặt ra theo cách mà tác nhân học tăng cường có thể đạt được điểm cao mà không cần phải hoàn thành đường đua. Điều này dẫn đến một số hành vi bất ngờ khi chúng tôi đào tạo một tác nhân RL để chơi trò chơi.
.png)
Đặc vụ RL tìm thấy một đầm phá biệt lập, nơi nó có thể quay một vòng tròn lớn và liên tục đánh đổ ba mục tiêu, căn thời gian di chuyển sao cho luôn đánh đổ các mục tiêu ngay khi chúng tái sinh. Mặc dù liên tục bốc cháy, đâm vào các thuyền khác và đi sai hướng trên đường đua, đặc vụ của chúng ta vẫn đạt được điểm cao hơn khi sử dụng chiến lược này so với khi hoàn thành khóa học theo cách thông thường. Đặc vụ của chúng ta đạt được điểm trung bình cao hơn 20 phần trăm so với điểm của người chơi.
- Tài khoản ChatGPT 4 TẠI ĐÂY!
Mặc dù vô hại và thú vị trong bối cảnh của một trò chơi điện tử, loại hành vi này chỉ ra một vấn đề chung hơn với việc học tăng cường: thường khó hoặc không khả thi để nắm bắt chính xác những gì chúng ta muốn một tác nhân thực hiện và do đó, chúng ta thường kết thúc bằng việc sử dụng các proxy không hoàn hảo nhưng dễ đo lường. Thông thường, điều này hiệu quả, nhưng đôi khi nó dẫn đến các hành động không mong muốn hoặc thậm chí nguy hiểm. Nói rộng hơn, nó vi phạm nguyên tắc kỹ thuật cơ bản rằng các hệ thống phải đáng tin cậy và có thể dự đoán được. Chúng tôi cũng đã khám phá vấn đề này sâu hơn trong bài báo nghiên cứu của mình Các vấn đề cụ thể về an toàn AI.
Làm sao chúng ta có thể tránh được những vấn đề như vậy? Bên cạnh việc cẩn thận khi thiết kế các hàm phần thưởng, một số hướng nghiên cứu mà OpenAI đang khám phá có thể giúp giảm các trường hợp phần thưởng không được chỉ định rõ:
+ Học hỏi từ các cuộc trình diễn cho phép chúng ta tránh việc chỉ định phần thưởng trực tiếp và thay vào đó chỉ học cách bắt chước cách con người hoàn thành nhiệm vụ. Trong ví dụ này, vì phần lớn con người sẽ cố gắng hoàn thành đường đua, nên thuật toán RL của chúng ta cũng sẽ làm như vậy.
+ Ngoài ra, hoặc thay vì các cuộc biểu tình của con người, chúng ta cũng có thể kết hợp phản hồi của con người bằng cách đánh giá chất lượng của các tập phim hoặc thậm chí chia sẻ quyền kiểm soát với tác nhân theo cách tương tác. Có thể một lượng rất nhỏ phản hồi đánh giá có thể ngăn cản tác nhân này đi vòng quanh.
+ Có thể sử dụng học chuyển giao để huấn luyện trên nhiều trò chơi tương tự và suy ra hàm phần thưởng "thông thường" cho trò chơi này. Hàm phần thưởng như vậy có thể ưu tiên hoàn thành cuộc đua dựa trên thực tế là một trò chơi điển hình có mục tiêu như vậy, thay vì tập trung vào tính đặc thù của hàm phần thưởng của trò chơi cụ thể này. Điều này có vẻ giống với cách con người chơi trò chơi hơn.
Những phương pháp này có thể có những thiếu sót riêng. Ví dụ, học chuyển giao liên quan đến việc ngoại suy một hàm phần thưởng cho một môi trường mới dựa trên các hàm phần thưởng từ nhiều môi trường tương tự. Bản thân việc ngoại suy này có thể bị lỗi—ví dụ, một tác nhân được đào tạo trên nhiều trò chơi đua xe trong đó việc lái xe ra khỏi đường có một hình phạt nhỏ, có thể kết luận sai rằng việc lái xe ra khỏi đường trong một bối cảnh mới, có mức cược cao hơn không phải là vấn đề lớn. Tinh tế hơn, nếu quá trình ngoại suy phần thưởng liên quan đến mạng nơ-ron, các ví dụ đối nghịch trong mạng lưới đó có thể dẫn đến một chức năng phần thưởng có các vùng phần thưởng cao “không tự nhiên” không tương ứng với bất kỳ mục tiêu hợp lý nào trong thế giới thực.
Giải quyết những vấn đề này sẽ rất phức tạp. Chúng tôi hy vọng rằng Vũ trụ sẽ cho phép chúng ta khám phá và giải quyết các chế độ lỗi mới một cách nhanh chóng, và cuối cùng là phát triển các hệ thống mà chúng ta có thể thực sự tin tưởng vào hành vi của chúng.
Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ với nhiều ưu đãi hấp dẫn!

Cách đổi Mật khẩu Chat GPT - Hướng dẫn đổi Pass Chat GPT 100% Thành công
Hướng dẫn Cách đăng nhập Chat GPT Nhanh nhất | Có hỗ trợ Miễn phí qua Teamview-Ultraview
Chat GPT Plus là gì? So sánh Chat GPT Plus với Chat GPT Miễn phí
Chat GPT bị giới hạn giải thích vì sao và cách khắc phục
Chat GPT là gì ? Cách đăng Ký Chat GPT Miễn Phí tại Việt Nam