Cuộc thi Retro: Kết quả

Mặc dù đã thử nhiều cách tiếp cận, nhưng kết quả hàng đầu đều đến từ việc điều chỉnh hoặc mở rộng các thuật toán hiện có như PPO và Rainbow. Vẫn còn một chặng đường dài phía trước: hiệu suất cao nhất là 4.692 sau khi đào tạo trong khi mức tối đa lý thuyết là 10.000. Những kết quả này cung cấp sự xác thực rằng chuẩn mực Sonic của chúng tôi là một vấn đề tốt để cộng đồng tập trung vào: các giải pháp chiến thắng là các cách tiếp cận học máy chung chứ không phải là các bản hack dành riêng cho cuộc thi, cho thấy rằng người ta không thể gian lận trong vấn đề này.

Tài khoản ChatGPT4 giá rẻ duy nhất hôm nay!

Trong cuộc thi kéo dài hai tháng, 923 đội đã đăng ký và 229 đội đã gửi giải pháp lên bảng xếp hạng. Hệ thống đánh giá tự động của chúng tôi đã thực hiện tổng cộng 4.448 đánh giá về các thuật toán đã gửi, tương ứng với khoảng 20 bài nộp cho mỗi đội. Các thí sinh được thấy điểm của mình tăng lên trên bảng xếp hạng, dựa trên một bộ kiểm tra gồm năm cấp độ chất lượng thấp mà chúng tôi tạo ra bằng trình chỉnh sửa cấp độ. Bạn có thể xem các tác nhân chơi một trong những cấp độ này bằng cách nhấp vào các mục nhập bảng xếp hạng.

Điểm cao nhất

5 đội có số điểm cao nhất là:

Thứ hạng	Đội	Điểm
#1	Pháp Vương	4692
#2	sai lầm	4446
#3	sinh vật	4430
#4	bất cứ điều gì	4274
#5	Học trò của Plato	4269
	Đường cơ sở PPO chung	4070
	Đường cơ sở Rainbow chung	3843
	Đường cơ sở cầu vồng	3498

Dharmaraja đứng đầu bảng điểm trong suốt cuộc thi, và vẫn dẫn đầu trong đánh giá cuối cùng; error đã chiến thắng sít sao trước aborg để giành vị trí thứ hai. Ba đội đứng đầu sẽ nhận được cúp.

Gặp gỡ những người chiến thắng

Pháp Vương

Dharmaraja là một đội gồm sáu thành viên bao gồm Qing Da, Jing-Cheng Shi, Anxiang Zeng, Guanda Huzhang, Run-Ze Li và Yang Yu. thanh đa (mở trong cửa sổ mới) và Anxiang Zeng đến từ nhóm AI trong bộ phận tìm kiếm của Alibaba tại Hàng Châu, Trung Quốc. Trong những năm gần đây, họ đã nghiên cứu cách áp dụng học tăng cường vào các vấn đề thực tế, đặc biệt là trong bối cảnh thương mại điện tử, cùng với Yang Yu(mở trong cửa sổ mới), là Phó Giáo sư của Khoa Khoa học Máy tính tại Đại học Nam Kinh, Nam Kinh, Trung Quốc.

Giải pháp của Dharmaraja là một biến thể của PPO chung (được mô tả trong báo cáo công nghệ của chúng tôi)(mở trong cửa sổ mới)) với một vài cải tiến. Đầu tiên, nó sử dụng hình ảnh RGB thay vì thang độ xám; thứ hai, nó sử dụng không gian hành động tăng cường một chút, với các kết hợp nút phổ biến hơn; thứ ba, nó sử dụng hàm phần thưởng tăng cường, thưởng cho tác nhân khi truy cập các trạng thái mới (được đánh giá bằng hàm băm nhận thức của màn hình). Ngoài những sửa đổi này, nhóm cũng đã thử một số điều không thành công: DeepMimic(mở trong cửa sổ mới), phát hiện đối tượng thông qua YOLO(mở trong cửa sổ mới)và một số ý tưởng riêng của Sonic.

Sai lầm

Đội sai lầm gồm có Peng Xu và Qiaoling Zhong. Cả hai đều là sinh viên năm thứ hai sau đại học tại Bắc Kinh, Trung Quốc, đang theo học tại Phòng thí nghiệm trọng điểm về khoa học dữ liệu mạng CAS và Viện công nghệ máy tính, Viện Hàn lâm khoa học Trung Quốc. Vào thời gian rảnh rỗi, Peng Xu thích chơi bóng rổ, còn Qiaoling Zhong thích chơi cầu lông. Trò chơi điện tử yêu thích của họ là Contra và Mario.

Giải pháp của Mistake dựa trên đường cơ sở Rainbow. Họ đã thực hiện một số sửa đổi giúp tăng hiệu suất: giá trị n tốt hơn cho việc học Q n-step; thêm một lớp CNN vào mô hình, giúp việc đào tạo chậm hơn nhưng tốt hơn; và khoảng thời gian cập nhật mục tiêu DQN thấp hơn. Ngoài ra, nhóm đã thử đào tạo chung với Rainbow, nhưng thấy rằng điều này thực sự làm giảm hiệu suất trong trường hợp của họ.

Bài học và các bước tiếp theo

Các cuộc thi có khả năng thay đổi hoàn toàn sự đồng thuận đang thịnh hành về phương pháp nào hiệu quả nhất, vì những người tham gia sẽ thử một loạt các phương pháp khác nhau và phương pháp tốt nhất sẽ giành chiến thắng. Trong cuộc thi cụ thể này, các phương pháp có hiệu suất cao nhất không khác biệt đáng kể so với các phương pháp mà chúng tôi tại OpenAI đã thấy là thành công trước cuộc thi.

Chúng tôi rất vui khi thấy một số giải pháp hàng đầu sử dụng học chuyển giao; tinh chỉnh từ các cấp độ đào tạo. Tuy nhiên, chúng tôi ngạc nhiên khi thấy rằng một số bài nộp hàng đầu chỉ đơn giản là các phiên bản được điều chỉnh của các thuật toán cơ sở của chúng tôi. Điều này nhấn mạnh tầm quan trọng của siêu tham số, đặc biệt là trong các thuật toán RL như Rainbow DQN.

Chúng tôi dự định sẽ bắt đầu một phiên bản khác của cuộc thi trong vài tháng nữa. Chúng tôi hy vọng và mong đợi rằng một số cách tiếp cận khác thường hơn sẽ thành công trong vòng thứ hai này, vì giờ đây mọi người đã biết phải mong đợi điều gì và đã bắt đầu suy nghĩ sâu sắc về các vấn đề học nhanh và khái quát hóa trong học tăng cường. Chúng tôi sẽ gặp lại bạn sau đó và chúng tôi mong muốn được chứng kiến các giải pháp sáng tạo của bạn leo lên bảng điểm.

Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ!

Họ tên (*)	Số điện thoại (*)
Email (*)	Dịch vụ

Cuộc thi Retro: Kết quả

Điểm cao nhất

Gặp gỡ những người chiến thắng

Pháp Vương

Sai lầm

Bài học và các bước tiếp theo

Bài liên quan

Hệ thống phân cấp hướng dẫn: Đào tạo LLM để ưu tiên các…

Trình Tạo Bài Hát Trên Cửa Hàng GPT: Công Cụ Mới Mẻ Cho…

Các mô hình tạo video như trình mô phỏng thế giới

60+ Lời nhắc ChatGPT cho các bài đăng hấp dẫn trên mạng xã…

Cải thiện lý luận toán học bằng cách giám sát quy trình

Liệu ChatGPT có thay thế được người viết nội dung không?

Đầu vào dân chủ cho AI

AI trong kinh doanh 2025: Vai trò của ChatGPT trong những đổi mới…

GPT là GPT: Một cái nhìn ban đầu về tiềm năng tác động…

Cách đổi Mật khẩu Chat GPT - Hướng dẫn đổi Pass Chat GPT 100% Thành công

Hướng dẫn Cách đăng nhập Chat GPT Nhanh nhất | Có hỗ trợ Miễn phí qua Teamview-Ultraview

Chat GPT Plus là gì? So sánh Chat GPT Plus với Chat GPT Miễn phí

Chat GPT bị giới hạn giải thích vì sao và cách khắc phục

Chat GPT là gì ? Cách đăng Ký Chat GPT Miễn Phí tại Việt Nam

AI trong kinh doanh 2025: Vai trò của ChatGPT trong những đổi mới trong tương lai

GPT là GPT: Một cái nhìn ban đầu về tiềm năng tác động của các mô hình ngôn ngữ lớn lên thị trường lao động

Có gì mới trong ChatGPT vào năm 2025?

GPT-4

ChatGPT đang thay đổi cách chúng ta viết?

Point-E: Một hệ thống tạo ra các đám mây điểm 3D từ các lời nhắc phức tạp

Chatgpt sẽ ảnh hưởng đến SEO như thế nào

Luật mở rộng cho mô hình phần thưởng tối ưu hóa quá mức

Trò chuyện GPT-4 - Tất cả những gì bạn cần biết về AI mạnh mẽ này

Giới thiệu Whisper

Chế độ nghiên cứu sâu ChatGPT là gì?

Đào tạo hiệu quả các mô hình ngôn ngữ để điền vào giữa

ChatGPT 2025: AI Thế Hệ Mới Sẵn Sàng Thay Đổi Ngành Viết Nội Dung

DALL·E 2 biện pháp giảm thiểu trước khi đào tạo

Cập nhật Big ChatGPT năm 2025: Cách mạng hóa tiếp thị kỹ thuật số với AI tiên tiến

Học chơi Minecraft với Video PreTraining

Chat GPT

Trí tuệ nhân tạo AI

Đăng ký tư vấn