Quay vòng trong thế giới thực sâu thẳm

 

Chúng tôi đang phát hành Spinning Up trong Deep RL, một nguồn tài nguyên giáo dục được thiết kế để cho phép bất kỳ ai học cách trở thành một học viên lành nghề trong học tăng cường sâu. Spinning Up bao gồm các ví dụ rõ ràng về mã RL, các bài tập giáo dục, tài liệu và hướng dẫn.

Tại OpenAI, chúng tôi tin rằng học sâu nói chung—và học tăng cường sâu nói riêng—sẽ đóng vai trò trung tâm trong quá trình phát triển công nghệ AI mạnh mẽ. Mặc dù có nhiều nguồn lực sẵn có để mọi người có thể nhanh chóng tăng tốc trong học sâu, nhưng học tăng cường sâu khó khăn hơn để đột phá. Chúng tôi đã thiết kế Spinning Up để giúp mọi người học cách sử dụng các công nghệ này và phát triển trực giác về chúng.

Chúng tôi đã được truyền cảm hứng để xây dựng Spinning Up thông qua công việc của chúng tôi với Học giả OpenAI (mở trong cửa sổ mới) và  các thành viên (mở trong cửa sổ mới) các sáng kiến, trong đó chúng tôi quan sát thấy rằng những người có ít hoặc không có kinh nghiệm về học máy có thể nhanh chóng tăng tốc trở thành người thực hành, nếu họ có hướng dẫn và nguồn lực phù hợp. Spinning Up in Deep RL được xây dựng với nhu cầu này và được tích hợp vào chương trình giảng dạy cho  nhóm năm 2019 (mở trong cửa sổ mới) của các học giả và nghiên cứu viên.

Chúng tôi cũng thấy rằng việc có năng lực trong RL có thể giúp mọi người tham gia vào các lĩnh vực nghiên cứu liên ngành như  an toàn AI (mở trong cửa sổ mới), bao gồm sự kết hợp giữa học tăng cường và các kỹ năng khác. Chúng tôi đã nhận được rất nhiều yêu cầu hướng dẫn học RL từ đầu, nên chúng tôi quyết định chính thức hóa lời khuyên không chính thức mà chúng tôi đã đưa ra.

Quá trình quay vòng trong Deep RL bao gồm các thành phần cốt lõi sau:

+ Một giới thiệu ngắn gọn (mở trong cửa sổ mới) đến thuật ngữ RL, các loại thuật toán và lý thuyết cơ bản.

+ Một bài luận (mở trong cửa sổ mới) về cách phát triển vai trò nghiên cứu RL.

+ Danh sách được tuyển chọn các bài báo quan trọng(mở trong cửa sổ mới) được sắp xếp theo chủ đề.

+ Một kho lưu trữ mã được ghi chép đầy đủ (mở trong cửa sổ mới) của các triển khai độc lập, ngắn gọn của: Vanilla Policy + Gradient (VPG), Trust Region Policy Optimization (TRPO), Proximal Policy Optimization (PPO), Deep Deterministic Policy Gradient (DDPG), Twin Delayed DDPG (TD3) và Soft Actor-Critic (SAC).

+ Và một vài bài tập (mở trong cửa sổ mới) để khởi động.

Ủng hộ

Chúng tôi có kế hoạch hỗ trợ sau cho dự án này:

+ Thời gian hỗ trợ phần mềm băng thông cao : Trong ba tuần đầu tiên sau khi phát hành, chúng tôi sẽ nhanh chóng xử lý các lỗi, sự cố cài đặt và giải quyết lỗi hoặc sự mơ hồ trong tài liệu. Chúng tôi sẽ nỗ lực để đơn giản hóa trải nghiệm của người dùng, nhằm giúp bạn tự học với Spinning Up dễ dàng nhất có thể.

+ Đánh giá chính vào tháng 4 năm 2019 : Khoảng sáu tháng sau khi phát hành, chúng tôi sẽ tiến hành đánh giá nghiêm túc về trạng thái của gói dựa trên phản hồi nhận được từ cộng đồng và công bố mọi kế hoạch sửa đổi trong tương lai.

+ Phát hành công khai thông tin phát triển nội bộ : Nếu chúng tôi thực hiện thay đổi đối với Spinning Up trong Deep RL khi làm việc với các Học giả và Nghiên cứu viên, chúng tôi sẽ đẩy những thay đổi đó lên kho lưu trữ công khai và cung cấp ngay cho mọi người.

Giáo dục tại OpenAI

Spinning Up in Deep RL là một phần của sáng kiến ​​giáo dục mới tại OpenAI mà chúng tôi đang 'triển khai' để đảm bảo chúng tôi thực hiện một trong những nguyên tắc của  Hiến chương OpenAI (mở trong cửa sổ mới): “tìm cách tạo ra một cộng đồng toàn cầu cùng nhau giải quyết những thách thức toàn cầu của AGI”. Chúng tôi hy vọng Spinning Up sẽ giúp nhiều người làm quen với việc học tăng cường sâu hơn và sử dụng nó để giúp thúc đẩy AI an toàn và có lợi rộng rãi.

Chúng tôi sẽ tổ chức một hội thảo về Spinning Up in Deep RL tại OpenAI San Francisco vào ngày 2 tháng 2 năm 2019. Hội thảo sẽ bao gồm 3 giờ tài liệu bài giảng và 5 giờ hack bán cấu trúc, phát triển dự án và các phiên thảo luận nhóm - tất cả đều được hỗ trợ bởi các thành viên của đội ngũ kỹ thuật tại OpenAI. Những người tham dự lý tưởng có kinh nghiệm về kỹ thuật phần mềm và đã mày mò với ML nhưng không yêu cầu kinh nghiệm ML chính thức. Nếu bạn quan tâm đến việc tham gia, vui lòng hoàn thành  đơn đăng ký ngắn của chúng tôi tại đây(mở trong cửa sổ mới). Thời hạn nộp đơn sẽ kết thúc vào ngày 8 tháng 12 năm 2018 và thông báo trúng tuyển sẽ được gửi vào ngày 17 tháng 12 năm 2018.

Nếu bạn muốn giúp chúng tôi mở rộng giới hạn của AI trong khi giao tiếp và giáo dục người khác, hãy cân nhắc nộp đơn xin việc tại OpenAI .

Quan hệ đối tác

Chúng tôi cũng sẽ làm việc với các tổ chức khác để giúp chúng tôi giáo dục mọi người bằng cách sử dụng các tài liệu này. Đối với quan hệ đối tác đầu tiên của chúng tôi, chúng tôi đang làm việc với Trung tâm AI tương thích với con người (mở trong cửa sổ mới) (CHAI) tại Đại học California ở Berkeley sẽ tổ chức hội thảo về RL sâu vào đầu năm 2019, tương tự như hội thảo Spinning Up đã lên kế hoạch tại OpenAI. Chúng tôi hy vọng đây sẽ là hội thảo đầu tiên trong số nhiều hội thảo khác.

Xem thêm: mua tài khoản ChatGPT Plus và tài khoản ChatGPT-4 chính hãng giá rẻ!

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !