.png)
Mặc dù đã thử nhiều cách tiếp cận, nhưng kết quả hàng đầu đều đến từ việc điều chỉnh hoặc mở rộng các thuật toán hiện có như PPO và Rainbow. Vẫn còn một chặng đường dài phía trước: hiệu suất cao nhất là 4.692 sau khi đào tạo trong khi mức tối đa lý thuyết là 10.000. Những kết quả này cung cấp sự xác thực rằng chuẩn mực Sonic của chúng tôi là một vấn đề tốt để cộng đồng tập trung vào: các giải pháp chiến thắng là các cách tiếp cận học máy chung chứ không phải là các bản hack dành riêng cho cuộc thi, cho thấy rằng người ta không thể gian lận trong vấn đề này.
- Tài khoản ChatGPT4 giá rẻ duy nhất hôm nay!
Trong cuộc thi kéo dài hai tháng, 923 đội đã đăng ký và 229 đội đã gửi giải pháp lên bảng xếp hạng. Hệ thống đánh giá tự động của chúng tôi đã thực hiện tổng cộng 4.448 đánh giá về các thuật toán đã gửi, tương ứng với khoảng 20 bài nộp cho mỗi đội. Các thí sinh được thấy điểm của mình tăng lên trên bảng xếp hạng, dựa trên một bộ kiểm tra gồm năm cấp độ chất lượng thấp mà chúng tôi tạo ra bằng trình chỉnh sửa cấp độ. Bạn có thể xem các tác nhân chơi một trong những cấp độ này bằng cách nhấp vào các mục nhập bảng xếp hạng.
Điểm cao nhất
5 đội có số điểm cao nhất là:
Thứ hạng | Đội | Điểm |
#1 | Pháp Vương | 4692 |
#2 | sai lầm | 4446 |
#3 | sinh vật | 4430 |
#4 | bất cứ điều gì | 4274 |
#5 | Học trò của Plato | 4269 |
| Đường cơ sở PPO chung | 4070 |
| Đường cơ sở Rainbow chung | 3843 |
| Đường cơ sở cầu vồng | 3498 |
Dharmaraja đứng đầu bảng điểm trong suốt cuộc thi, và vẫn dẫn đầu trong đánh giá cuối cùng; error đã chiến thắng sít sao trước aborg để giành vị trí thứ hai. Ba đội đứng đầu sẽ nhận được cúp.
Gặp gỡ những người chiến thắng
Pháp Vương
Dharmaraja là một đội gồm sáu thành viên bao gồm Qing Da, Jing-Cheng Shi, Anxiang Zeng, Guanda Huzhang, Run-Ze Li và Yang Yu. thanh đa (mở trong cửa sổ mới) và Anxiang Zeng đến từ nhóm AI trong bộ phận tìm kiếm của Alibaba tại Hàng Châu, Trung Quốc. Trong những năm gần đây, họ đã nghiên cứu cách áp dụng học tăng cường vào các vấn đề thực tế, đặc biệt là trong bối cảnh thương mại điện tử, cùng với Yang Yu(mở trong cửa sổ mới), là Phó Giáo sư của Khoa Khoa học Máy tính tại Đại học Nam Kinh, Nam Kinh, Trung Quốc.
Giải pháp của Dharmaraja là một biến thể của PPO chung (được mô tả trong báo cáo công nghệ của chúng tôi)(mở trong cửa sổ mới)) với một vài cải tiến. Đầu tiên, nó sử dụng hình ảnh RGB thay vì thang độ xám; thứ hai, nó sử dụng không gian hành động tăng cường một chút, với các kết hợp nút phổ biến hơn; thứ ba, nó sử dụng hàm phần thưởng tăng cường, thưởng cho tác nhân khi truy cập các trạng thái mới (được đánh giá bằng hàm băm nhận thức của màn hình). Ngoài những sửa đổi này, nhóm cũng đã thử một số điều không thành công: DeepMimic(mở trong cửa sổ mới), phát hiện đối tượng thông qua YOLO(mở trong cửa sổ mới)và một số ý tưởng riêng của Sonic.
Sai lầm
Đội sai lầm gồm có Peng Xu và Qiaoling Zhong. Cả hai đều là sinh viên năm thứ hai sau đại học tại Bắc Kinh, Trung Quốc, đang theo học tại Phòng thí nghiệm trọng điểm về khoa học dữ liệu mạng CAS và Viện công nghệ máy tính, Viện Hàn lâm khoa học Trung Quốc. Vào thời gian rảnh rỗi, Peng Xu thích chơi bóng rổ, còn Qiaoling Zhong thích chơi cầu lông. Trò chơi điện tử yêu thích của họ là Contra và Mario.
Giải pháp của Mistake dựa trên đường cơ sở Rainbow. Họ đã thực hiện một số sửa đổi giúp tăng hiệu suất: giá trị n tốt hơn cho việc học Q n-step; thêm một lớp CNN vào mô hình, giúp việc đào tạo chậm hơn nhưng tốt hơn; và khoảng thời gian cập nhật mục tiêu DQN thấp hơn. Ngoài ra, nhóm đã thử đào tạo chung với Rainbow, nhưng thấy rằng điều này thực sự làm giảm hiệu suất trong trường hợp của họ.
Bài học và các bước tiếp theo
Các cuộc thi có khả năng thay đổi hoàn toàn sự đồng thuận đang thịnh hành về phương pháp nào hiệu quả nhất, vì những người tham gia sẽ thử một loạt các phương pháp khác nhau và phương pháp tốt nhất sẽ giành chiến thắng. Trong cuộc thi cụ thể này, các phương pháp có hiệu suất cao nhất không khác biệt đáng kể so với các phương pháp mà chúng tôi tại OpenAI đã thấy là thành công trước cuộc thi.
Chúng tôi rất vui khi thấy một số giải pháp hàng đầu sử dụng học chuyển giao; tinh chỉnh từ các cấp độ đào tạo. Tuy nhiên, chúng tôi ngạc nhiên khi thấy rằng một số bài nộp hàng đầu chỉ đơn giản là các phiên bản được điều chỉnh của các thuật toán cơ sở của chúng tôi. Điều này nhấn mạnh tầm quan trọng của siêu tham số, đặc biệt là trong các thuật toán RL như Rainbow DQN.
Chúng tôi dự định sẽ bắt đầu một phiên bản khác của cuộc thi trong vài tháng nữa. Chúng tôi hy vọng và mong đợi rằng một số cách tiếp cận khác thường hơn sẽ thành công trong vòng thứ hai này, vì giờ đây mọi người đã biết phải mong đợi điều gì và đã bắt đầu suy nghĩ sâu sắc về các vấn đề học nhanh và khái quát hóa trong học tăng cường. Chúng tôi sẽ gặp lại bạn sau đó và chúng tôi mong muốn được chứng kiến các giải pháp sáng tạo của bạn leo lên bảng điểm.
Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ!

.png)
Cách đổi Mật khẩu Chat GPT - Hướng dẫn đổi Pass Chat GPT 100% Thành công
Hướng dẫn Cách đăng nhập Chat GPT Nhanh nhất | Có hỗ trợ Miễn phí qua Teamview-Ultraview
Chat GPT Plus là gì? So sánh Chat GPT Plus với Chat GPT Miễn phí
Chat GPT bị giới hạn giải thích vì sao và cách khắc phục
Chat GPT là gì ? Cách đăng Ký Chat GPT Miễn Phí tại Việt Nam