zalo
Chat ngay

Cuộc thi Retro: Kết quả

Đợt chạy đầu tiên của Cuộc thi Retro của chúng tôi—khám phá sự phát triển của các thuật toán có khả năng khái quát hóa từ kinh nghiệm trước đây—hiện đã hoàn tất

Mặc dù đã thử nhiều cách tiếp cận, nhưng kết quả hàng đầu đều đến từ việc điều chỉnh hoặc mở rộng các thuật toán hiện có như PPO và Rainbow. Vẫn còn một chặng đường dài phía trước: hiệu suất cao nhất là 4.692 sau khi đào tạo trong khi mức tối đa lý thuyết là 10.000. Những kết quả này cung cấp sự xác thực rằng chuẩn mực Sonic của chúng tôi là một vấn đề tốt để cộng đồng tập trung vào: các giải pháp chiến thắng là các cách tiếp cận học máy chung chứ không phải là các bản hack dành riêng cho cuộc thi, cho thấy rằng người ta không thể gian lận trong vấn đề này.

Trong cuộc thi kéo dài hai tháng, 923 đội đã đăng ký và 229 đội đã gửi giải pháp lên bảng xếp hạng. Hệ thống đánh giá tự động của chúng tôi đã thực hiện tổng cộng 4.448 đánh giá về các thuật toán đã gửi, tương ứng với khoảng 20 bài nộp cho mỗi đội. Các thí sinh được thấy điểm của mình tăng lên trên bảng xếp hạng, dựa trên một bộ kiểm tra gồm năm cấp độ chất lượng thấp mà chúng tôi tạo ra bằng trình chỉnh sửa cấp độ. Bạn có thể xem các tác nhân chơi một trong những cấp độ này bằng cách nhấp vào các  mục nhập bảng xếp hạng.

Điểm cao nhất

5 đội có số điểm cao nhất là:

Thứ hạng

Đội

Điểm

#1

Pháp Vương

4692

#2

sai lầm

4446

#3

sinh vật

4430

#4

bất cứ điều gì

4274

#5

Học trò của Plato

4269

 

Đường cơ sở PPO chung

4070

 

Đường cơ sở Rainbow chung

3843

 

Đường cơ sở cầu vồng

3498

Dharmaraja  đứng đầu bảng điểm trong suốt cuộc thi, và vẫn dẫn đầu trong đánh giá cuối cùng;  error  đã chiến thắng sít sao trước  aborg  để giành vị trí thứ hai. Ba đội đứng đầu sẽ nhận được cúp.

Gặp gỡ những người chiến thắng

 

Pháp Vương

Dharmaraja là một đội gồm sáu thành viên bao gồm Qing Da, Jing-Cheng Shi, Anxiang Zeng, Guanda Huzhang, Run-Ze Li và Yang Yu.  thanh đa (mở trong cửa sổ mới) và Anxiang Zeng đến từ nhóm AI trong bộ phận tìm kiếm của Alibaba tại Hàng Châu, Trung Quốc. Trong những năm gần đây, họ đã nghiên cứu cách áp dụng học tăng cường vào các vấn đề thực tế, đặc biệt là trong bối cảnh thương mại điện tử, cùng với  Yang Yu(mở trong cửa sổ mới), là Phó Giáo sư của Khoa Khoa học Máy tính tại Đại học Nam Kinh, Nam Kinh, Trung Quốc.

Giải pháp của Dharmaraja là một biến thể của PPO chung (được mô tả trong  báo cáo công nghệ của chúng tôi)(mở trong cửa sổ mới)) với một vài cải tiến. Đầu tiên, nó sử dụng hình ảnh RGB thay vì thang độ xám; thứ hai, nó sử dụng không gian hành động tăng cường một chút, với các kết hợp nút phổ biến hơn; thứ ba, nó sử dụng hàm phần thưởng tăng cường, thưởng cho tác nhân khi truy cập các trạng thái mới (được đánh giá bằng hàm băm nhận thức của màn hình). Ngoài những sửa đổi này, nhóm cũng đã thử một số điều không thành công:  DeepMimic(mở trong cửa sổ mới), phát hiện đối tượng thông qua  YOLO(mở trong cửa sổ mới)và một số ý tưởng riêng của Sonic.

Sai lầm

Đội sai lầm gồm có Peng Xu và Qiaoling Zhong. Cả hai đều là sinh viên năm thứ hai sau đại học tại Bắc Kinh, Trung Quốc, đang theo học tại Phòng thí nghiệm trọng điểm về khoa học dữ liệu mạng CAS và Viện công nghệ máy tính, Viện Hàn lâm khoa học Trung Quốc. Vào thời gian rảnh rỗi, Peng Xu thích chơi bóng rổ, còn Qiaoling Zhong thích chơi cầu lông. Trò chơi điện tử yêu thích của họ là Contra và Mario.

Giải pháp của Mistake dựa trên đường cơ sở Rainbow. Họ đã thực hiện một số sửa đổi giúp tăng hiệu suất: giá trị n tốt hơn cho việc học Q n-step; thêm một lớp CNN vào mô hình, giúp việc đào tạo chậm hơn nhưng tốt hơn; và khoảng thời gian cập nhật mục tiêu DQN thấp hơn. Ngoài ra, nhóm đã thử đào tạo chung với Rainbow, nhưng thấy rằng điều này thực sự làm giảm hiệu suất trong trường hợp của họ.

Bài học và các bước tiếp theo

Các cuộc thi có khả năng thay đổi hoàn toàn sự đồng thuận đang thịnh hành về phương pháp nào hiệu quả nhất, vì những người tham gia sẽ thử một loạt các phương pháp khác nhau và phương pháp tốt nhất sẽ giành chiến thắng. Trong cuộc thi cụ thể này, các phương pháp có hiệu suất cao nhất không khác biệt đáng kể so với các phương pháp mà chúng tôi tại OpenAI đã thấy là thành công trước cuộc thi.

Chúng tôi rất vui khi thấy một số giải pháp hàng đầu sử dụng học chuyển giao; tinh chỉnh từ các cấp độ đào tạo. Tuy nhiên, chúng tôi ngạc nhiên khi thấy rằng một số bài nộp hàng đầu chỉ đơn giản là các phiên bản được điều chỉnh của các thuật toán cơ sở của chúng tôi. Điều này nhấn mạnh tầm quan trọng của siêu tham số, đặc biệt là trong các thuật toán RL như Rainbow DQN.

Chúng tôi dự định sẽ bắt đầu một phiên bản khác của cuộc thi trong vài tháng nữa. Chúng tôi hy vọng và mong đợi rằng một số cách tiếp cận khác thường hơn sẽ thành công trong vòng thứ hai này, vì giờ đây mọi người đã biết phải mong đợi điều gì và đã bắt đầu suy nghĩ sâu sắc về các vấn đề học nhanh và khái quát hóa trong học tăng cường. Chúng tôi sẽ gặp lại bạn sau đó và chúng tôi mong muốn được chứng kiến ​​các giải pháp sáng tạo của bạn leo lên bảng điểm.

Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ!

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !