Quay vòng trong thế giới thực sâu thẳm

Chúng tôi đang phát hành Spinning Up trong Deep RL, một nguồn tài nguyên giáo dục được thiết kế để cho phép bất kỳ ai học cách trở thành một học viên lành nghề trong học tăng cường sâu. Spinning Up bao gồm các ví dụ rõ ràng về mã RL, các bài tập giáo dục, tài liệu và hướng dẫn.

Tại OpenAI, chúng tôi tin rằng học sâu nói chung—và học tăng cường sâu nói riêng—sẽ đóng vai trò trung tâm trong quá trình phát triển công nghệ AI mạnh mẽ. Mặc dù có nhiều nguồn lực sẵn có để mọi người có thể nhanh chóng tăng tốc trong học sâu, nhưng học tăng cường sâu khó khăn hơn để đột phá. Chúng tôi đã thiết kế Spinning Up để giúp mọi người học cách sử dụng các công nghệ này và phát triển trực giác về chúng.

Chúng tôi đã được truyền cảm hứng để xây dựng Spinning Up thông qua công việc của chúng tôi với Học giả OpenAI (mở trong cửa sổ mới) và các thành viên (mở trong cửa sổ mới) các sáng kiến, trong đó chúng tôi quan sát thấy rằng những người có ít hoặc không có kinh nghiệm về học máy có thể nhanh chóng tăng tốc trở thành người thực hành, nếu họ có hướng dẫn và nguồn lực phù hợp. Spinning Up in Deep RL được xây dựng với nhu cầu này và được tích hợp vào chương trình giảng dạy cho nhóm năm 2019 (mở trong cửa sổ mới) của các học giả và nghiên cứu viên.

Chúng tôi cũng thấy rằng việc có năng lực trong RL có thể giúp mọi người tham gia vào các lĩnh vực nghiên cứu liên ngành như an toàn AI (mở trong cửa sổ mới), bao gồm sự kết hợp giữa học tăng cường và các kỹ năng khác. Chúng tôi đã nhận được rất nhiều yêu cầu hướng dẫn học RL từ đầu, nên chúng tôi quyết định chính thức hóa lời khuyên không chính thức mà chúng tôi đã đưa ra.

Quá trình quay vòng trong Deep RL bao gồm các thành phần cốt lõi sau:

+ Một giới thiệu ngắn gọn (mở trong cửa sổ mới) đến thuật ngữ RL, các loại thuật toán và lý thuyết cơ bản.

+ Một bài luận (mở trong cửa sổ mới) về cách phát triển vai trò nghiên cứu RL.

+ Danh sách được tuyển chọn các bài báo quan trọng(mở trong cửa sổ mới) được sắp xếp theo chủ đề.

+ Một kho lưu trữ mã được ghi chép đầy đủ (mở trong cửa sổ mới) của các triển khai độc lập, ngắn gọn của: Vanilla Policy + Gradient (VPG), Trust Region Policy Optimization (TRPO), Proximal Policy Optimization (PPO), Deep Deterministic Policy Gradient (DDPG), Twin Delayed DDPG (TD3) và Soft Actor-Critic (SAC).

+ Và một vài bài tập (mở trong cửa sổ mới) để khởi động.

Ủng hộ

Chúng tôi có kế hoạch hỗ trợ sau cho dự án này:

+ Thời gian hỗ trợ phần mềm băng thông cao : Trong ba tuần đầu tiên sau khi phát hành, chúng tôi sẽ nhanh chóng xử lý các lỗi, sự cố cài đặt và giải quyết lỗi hoặc sự mơ hồ trong tài liệu. Chúng tôi sẽ nỗ lực để đơn giản hóa trải nghiệm của người dùng, nhằm giúp bạn tự học với Spinning Up dễ dàng nhất có thể.

+ Đánh giá chính vào tháng 4 năm 2019 : Khoảng sáu tháng sau khi phát hành, chúng tôi sẽ tiến hành đánh giá nghiêm túc về trạng thái của gói dựa trên phản hồi nhận được từ cộng đồng và công bố mọi kế hoạch sửa đổi trong tương lai.

+ Phát hành công khai thông tin phát triển nội bộ : Nếu chúng tôi thực hiện thay đổi đối với Spinning Up trong Deep RL khi làm việc với các Học giả và Nghiên cứu viên, chúng tôi sẽ đẩy những thay đổi đó lên kho lưu trữ công khai và cung cấp ngay cho mọi người.

Giáo dục tại OpenAI

Spinning Up in Deep RL là một phần của sáng kiến giáo dục mới tại OpenAI mà chúng tôi đang 'triển khai' để đảm bảo chúng tôi thực hiện một trong những nguyên tắc của Hiến chương OpenAI (mở trong cửa sổ mới): “tìm cách tạo ra một cộng đồng toàn cầu cùng nhau giải quyết những thách thức toàn cầu của AGI”. Chúng tôi hy vọng Spinning Up sẽ giúp nhiều người làm quen với việc học tăng cường sâu hơn và sử dụng nó để giúp thúc đẩy AI an toàn và có lợi rộng rãi.

Chúng tôi sẽ tổ chức một hội thảo về Spinning Up in Deep RL tại OpenAI San Francisco vào ngày 2 tháng 2 năm 2019. Hội thảo sẽ bao gồm 3 giờ tài liệu bài giảng và 5 giờ hack bán cấu trúc, phát triển dự án và các phiên thảo luận nhóm - tất cả đều được hỗ trợ bởi các thành viên của đội ngũ kỹ thuật tại OpenAI. Những người tham dự lý tưởng có kinh nghiệm về kỹ thuật phần mềm và đã mày mò với ML nhưng không yêu cầu kinh nghiệm ML chính thức. Nếu bạn quan tâm đến việc tham gia, vui lòng hoàn thành đơn đăng ký ngắn của chúng tôi tại đây(mở trong cửa sổ mới). Thời hạn nộp đơn sẽ kết thúc vào ngày 8 tháng 12 năm 2018 và thông báo trúng tuyển sẽ được gửi vào ngày 17 tháng 12 năm 2018.

Nếu bạn muốn giúp chúng tôi mở rộng giới hạn của AI trong khi giao tiếp và giáo dục người khác, hãy cân nhắc nộp đơn xin việc tại OpenAI .

Quan hệ đối tác

Chúng tôi cũng sẽ làm việc với các tổ chức khác để giúp chúng tôi giáo dục mọi người bằng cách sử dụng các tài liệu này. Đối với quan hệ đối tác đầu tiên của chúng tôi, chúng tôi đang làm việc với Trung tâm AI tương thích với con người (mở trong cửa sổ mới) (CHAI) tại Đại học California ở Berkeley sẽ tổ chức hội thảo về RL sâu vào đầu năm 2019, tương tự như hội thảo Spinning Up đã lên kế hoạch tại OpenAI. Chúng tôi hy vọng đây sẽ là hội thảo đầu tiên trong số nhiều hội thảo khác.

Xem thêm: mua tài khoản ChatGPT Plus và tài khoản ChatGPT-4 chính hãng giá rẻ!

Họ tên (*)	Số điện thoại (*)
Email (*)	Dịch vụ

Quay vòng trong thế giới thực sâu thẳm

Ủng hộ

Giáo dục tại OpenAI

Quan hệ đối tác

Bài liên quan

Hệ thống phân cấp hướng dẫn: Đào tạo LLM để ưu tiên các…

Trình Tạo Bài Hát Trên Cửa Hàng GPT: Công Cụ Mới Mẻ Cho…

Các mô hình tạo video như trình mô phỏng thế giới

60+ Lời nhắc ChatGPT cho các bài đăng hấp dẫn trên mạng xã…

Cải thiện lý luận toán học bằng cách giám sát quy trình

Liệu ChatGPT có thay thế được người viết nội dung không?

Đầu vào dân chủ cho AI

AI trong kinh doanh 2025: Vai trò của ChatGPT trong những đổi mới…

GPT là GPT: Một cái nhìn ban đầu về tiềm năng tác động…

Cách đổi Mật khẩu Chat GPT - Hướng dẫn đổi Pass Chat GPT 100% Thành công

Hướng dẫn Cách đăng nhập Chat GPT Nhanh nhất | Có hỗ trợ Miễn phí qua Teamview-Ultraview

Chat GPT Plus là gì? So sánh Chat GPT Plus với Chat GPT Miễn phí

Chat GPT bị giới hạn giải thích vì sao và cách khắc phục

Chat GPT là gì ? Cách đăng Ký Chat GPT Miễn Phí tại Việt Nam

AI trong kinh doanh 2025: Vai trò của ChatGPT trong những đổi mới trong tương lai

GPT là GPT: Một cái nhìn ban đầu về tiềm năng tác động của các mô hình ngôn ngữ lớn lên thị trường lao động

Có gì mới trong ChatGPT vào năm 2025?

GPT-4

ChatGPT đang thay đổi cách chúng ta viết?

Point-E: Một hệ thống tạo ra các đám mây điểm 3D từ các lời nhắc phức tạp

Chatgpt sẽ ảnh hưởng đến SEO như thế nào

Luật mở rộng cho mô hình phần thưởng tối ưu hóa quá mức

Trò chuyện GPT-4 - Tất cả những gì bạn cần biết về AI mạnh mẽ này

Giới thiệu Whisper

Chế độ nghiên cứu sâu ChatGPT là gì?

Đào tạo hiệu quả các mô hình ngôn ngữ để điền vào giữa

ChatGPT 2025: AI Thế Hệ Mới Sẵn Sàng Thay Đổi Ngành Viết Nội Dung

DALL·E 2 biện pháp giảm thiểu trước khi đào tạo

Cập nhật Big ChatGPT năm 2025: Cách mạng hóa tiếp thị kỹ thuật số với AI tiên tiến

Học chơi Minecraft với Video PreTraining

Chat GPT

Trí tuệ nhân tạo AI

Đăng ký tư vấn