Học cách phân cấp

Chúng tôi đã phát triển một thuật toán học tăng cường phân cấp có thể học các hành động cấp cao hữu ích để giải quyết một loạt các nhiệm vụ, cho phép giải quyết nhanh các nhiệm vụ đòi hỏi hàng nghìn bước thời gian. Thuật toán của chúng tôi, khi áp dụng cho một tập hợp các vấn đề điều hướng, sẽ khám phá ra một tập hợp các hành động cấp cao để đi bộ và bò theo các hướng khác nhau, cho phép tác nhân nắm vững các nhiệm vụ điều hướng mới một cách nhanh chóng.

Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ

Con người giải quyết những thách thức phức tạp bằng cách chia nhỏ chúng thành các thành phần nhỏ, dễ quản lý. Nướng bánh kếp bao gồm một loạt các hành động cấp cao, chẳng hạn như đong bột, đánh trứng, đổ hỗn hợp vào chảo, bật bếp, v.v. Con người có thể học các nhiệm vụ mới một cách nhanh chóng bằng cách sắp xếp lại các thành phần đã học này, mặc dù nhiệm vụ có thể mất hàng triệu hành động cấp thấp, tức là các cơn co cơ riêng lẻ.

Mặt khác, các phương pháp học tăng cường ngày nay hoạt động thông qua tìm kiếm vũ phu trên các hành động cấp thấp, đòi hỏi một số lượng lớn các lần thử để giải quyết một nhiệm vụ mới. Các phương pháp này trở nên rất kém hiệu quả khi giải quyết các nhiệm vụ mất nhiều bước thời gian.

Giải pháp của chúng tôi dựa trên ý tưởng về học tăng cường phân cấp, trong đó các tác nhân biểu diễn các hành vi phức tạp dưới dạng một chuỗi ngắn các hành động cấp cao. Điều này cho phép các tác nhân của chúng tôi giải quyết các nhiệm vụ khó hơn nhiều: trong khi giải pháp có thể yêu cầu 2000 hành động cấp thấp, chính sách phân cấp biến điều này thành một chuỗi gồm 10 hành động cấp cao và việc tìm kiếm trên chuỗi 10 bước hiệu quả hơn nhiều so với chuỗi 2000 bước.

Phân cấp chia sẻ siêu học tập

Thuật toán của chúng tôi, meta-learning shared hierarchies (MLSH), học một chính sách phân cấp trong đó một chính sách chính chuyển đổi giữa một tập hợp các chính sách phụ. Chính sách chính chọn một hành động sau mỗi N bước thời gian, trong đó chúng ta có thể lấy N=200. Một chính sách phụ được thực hiện trong N bước thời gian cấu thành một hành động cấp cao và đối với các tác vụ điều hướng của chúng tôi, các chính sách phụ tương ứng với việc đi bộ hoặc bò theo các hướng khác nhau.

Trong hầu hết các công trình trước đây, các chính sách phân cấp đã được thiết kế thủ công một cách rõ ràng. Thay vào đó, chúng tôi hướng đến việc tự động khám phá cấu trúc phân cấp này thông qua tương tác với môi trường. Theo quan điểm siêu học, chúng tôi định nghĩa một phân cấp tốt là một phân cấp nhanh chóng đạt được phần thưởng cao khi đào tạo trên các tác vụ chưa từng thấy. Do đó, thuật toán MLSH hướng đến việc học các chính sách phụ cho phép học nhanh trên các tác vụ chưa từng thấy trước đó.

Chúng tôi đào tạo trên một phân phối trên các tác vụ, chia sẻ các chính sách phụ trong khi học một chính sách chính mới trên mỗi tác vụ được lấy mẫu. Bằng cách đào tạo nhiều lần các chính sách chính mới, quy trình này tự động tìm các chính sách phụ phù hợp với động lực học tập của chính sách chính.

Thí nghiệm

Trong môi trường AntMaze của chúng tôi, một robot Mujoco Ant được đặt vào một phân phối gồm 9 mê cung khác nhau và phải điều hướng từ vị trí bắt đầu đến đích. Thuật toán của chúng tôi có thể tìm thấy một tập hợp đa dạng các chính sách phụ có thể được sắp xếp cùng nhau để giải quyết các nhiệm vụ mê cung, chỉ thông qua tương tác với môi trường. Sau đó, tập hợp các chính sách phụ này có thể được sử dụng để làm chủ một nhiệm vụ lớn hơn những nhiệm vụ mà chúng đã được đào tạo.

Mã số

Chúng tôi đang phát hành mã để đào tạo các tác nhân MLSH cũng như môi trường MuJoCo mà chúng tôi xây dựng để đánh giá các thuật toán này.

Tài khoản ChatGPT 4 TẠI ĐÂY!

Họ tên (*)	Số điện thoại (*)
Email (*)	Dịch vụ

Học cách phân cấp

Phân cấp chia sẻ siêu học tập

Thí nghiệm

Mã số

Bài liên quan

Hệ thống phân cấp hướng dẫn: Đào tạo LLM để ưu tiên các…

Trình Tạo Bài Hát Trên Cửa Hàng GPT: Công Cụ Mới Mẻ Cho…

Các mô hình tạo video như trình mô phỏng thế giới

60+ Lời nhắc ChatGPT cho các bài đăng hấp dẫn trên mạng xã…

Cải thiện lý luận toán học bằng cách giám sát quy trình

Liệu ChatGPT có thay thế được người viết nội dung không?

Đầu vào dân chủ cho AI

AI trong kinh doanh 2025: Vai trò của ChatGPT trong những đổi mới…

GPT là GPT: Một cái nhìn ban đầu về tiềm năng tác động…

Cách đổi Mật khẩu Chat GPT - Hướng dẫn đổi Pass Chat GPT 100% Thành công

Hướng dẫn Cách đăng nhập Chat GPT Nhanh nhất | Có hỗ trợ Miễn phí qua Teamview-Ultraview

Chat GPT Plus là gì? So sánh Chat GPT Plus với Chat GPT Miễn phí

Chat GPT bị giới hạn giải thích vì sao và cách khắc phục

Chat GPT là gì ? Cách đăng Ký Chat GPT Miễn Phí tại Việt Nam

AI trong kinh doanh 2025: Vai trò của ChatGPT trong những đổi mới trong tương lai

GPT là GPT: Một cái nhìn ban đầu về tiềm năng tác động của các mô hình ngôn ngữ lớn lên thị trường lao động

Có gì mới trong ChatGPT vào năm 2025?

GPT-4

ChatGPT đang thay đổi cách chúng ta viết?

Point-E: Một hệ thống tạo ra các đám mây điểm 3D từ các lời nhắc phức tạp

Chatgpt sẽ ảnh hưởng đến SEO như thế nào

Luật mở rộng cho mô hình phần thưởng tối ưu hóa quá mức

Trò chuyện GPT-4 - Tất cả những gì bạn cần biết về AI mạnh mẽ này

Giới thiệu Whisper

Chế độ nghiên cứu sâu ChatGPT là gì?

Đào tạo hiệu quả các mô hình ngôn ngữ để điền vào giữa

ChatGPT 2025: AI Thế Hệ Mới Sẵn Sàng Thay Đổi Ngành Viết Nội Dung

DALL·E 2 biện pháp giảm thiểu trước khi đào tạo

Cập nhật Big ChatGPT năm 2025: Cách mạng hóa tiếp thị kỹ thuật số với AI tiên tiến

Học chơi Minecraft với Video PreTraining

Chat GPT

Trí tuệ nhân tạo AI

Đăng ký tư vấn