.png)
Giống như yêu cầu nghiên cứu ban đầu của chúng tôi mà kết quả là trong một số giấy tờ, chúng tôi mong đợi những vấn đề này sẽ là một cách thú vị và có ý nghĩa để những người mới bước vào lĩnh vực này, cũng như để những người hành nghề trau dồi kỹ năng của họ (đây cũng là một cách tuyệt vời để có được việc làm tại OpenAI). Nhiều người sẽ cần phải phát minh ra những ý tưởng mới. Vui lòng gửi email cho chúng tôi với những câu hỏi hoặc giải pháp mà bạn muốn chúng tôi công bố!
Khởi động
Nếu bạn không biết nên bắt đầu từ đâu, sau đây là một số vấn đề khởi động đã được giải quyết.
⭐ Huấn luyện LSTM để giải quyết XOR vấn đề: nghĩa là, cho một chuỗi bit, xác định tính chẵn lẻ của nó. LSTM(mở trong cửa sổ mới) nên sử dụng chuỗi, từng bit một, sau đó đưa ra câu trả lời đúng ở cuối chuỗi. Kiểm tra hai cách tiếp cận dưới đây:
+ Tạo một tập dữ liệu gồm 100.000 chuỗi nhị phân ngẫu nhiên có độ dài 50. Huấn luyện LSTM; bạn sẽ nhận được hiệu suất gì?
+ Tạo một tập dữ liệu gồm 100.000 chuỗi nhị phân ngẫu nhiên, trong đó độ dài của mỗi chuỗi được chọn độc lập và ngẫu nhiên trong khoảng từ 1 đến 50. Huấn luyện LSTM. Nó có thành công không? Điều gì giải thích sự khác biệt?
⭐ Triển khai bản sao của Snake cổ điển(mở trong cửa sổ mới) trò chơi như một phòng tập thể dục môi trường và giải quyết nó bằng cách học tăng cường(mở trong cửa sổ mới) thuật toán bạn chọn. Tweet video của người đại lý đang chơi. Bạn có thể đào tạo một chính sách giúp giành chiến thắng trong trò chơi không?
Yêu cầu nghiên cứu
⭐⭐ Slitherin'. Triển khai và giải quyết bản sao nhiều người chơi của trò chơi Snake kinh điển trò chơi (xem slither.io(mở trong cửa sổ mới) để lấy cảm hứng) như một phòng tập thể dục(mở trong cửa sổ mới) môi trường.
+ Môi trường: có một cánh đồng khá lớn với nhiều con rắn; rắn sẽ lớn lên khi ăn trái cây xuất hiện ngẫu nhiên; một con rắn sẽ chết khi va chạm với một con rắn khác, với chính nó hoặc với bức tường; và trò chơi kết thúc khi tất cả các con rắn đều chết. Bắt đầu với hai con rắn và mở rộng từ đó.
+ Đặc vụ: giải quyết môi trường bằng cách tự chơi với thuật toán RL do bạn lựa chọn (mở trong cửa sổ mới). Bạn sẽ cần thử nghiệm nhiều cách tiếp cận khác nhau để khắc phục tình trạng mất ổn định khi tự chơi (tương tự như tình trạng mất ổn định mà mọi người thấy ở GAN). Ví dụ, hãy thử đào tạo chính sách hiện tại của bạn theo phân phối của các chính sách trước đây. Cách tiếp cận nào hiệu quả nhất?
+ Kiểm tra hành vi đã học: liệu tác nhân có học cách theo đuổi thức ăn và tránh những con rắn khác một cách thành thạo không? Liệu tác nhân có học cách tấn công, bẫy hoặc hợp tác chống lại những con rắn cạnh tranh không? Hãy tweet cho chúng tôi những video về các chính sách đã học!
⭐⭐⭐ Tham số trung bình trong RL phân tán. Khám phá tác động của các chương trình trung bình tham số lên độ phức tạp của mẫu(mở trong cửa sổ mới) và lượng giao tiếp trong các thuật toán RL. Trong khi giải pháp đơn giản nhất là tính trung bình các gradient từ mọi công nhân trên mọi bản cập nhật, bạn có thể tiết kiệm(mở trong cửa sổ mới) trên băng thông truyền thông bằng cách cập nhật độc lập các công nhân và sau đó thỉnh thoảng tính trung bình các tham số. Trong RL, điều này có thể có một lợi ích khác: tại bất kỳ thời điểm nào, chúng ta sẽ có các tác nhân với các tham số khác nhau, điều này có thể dẫn đến hành vi khám phá tốt hơn. Một khả năng khác là sử dụng các thuật toán như EASGD(mở trong cửa sổ mới) mang các tham số lại với nhau một phần sau mỗi lần cập nhật.
- Tài khoản ChatGPT 4 chính hãng TẠI ĐÂY với nhiều ưu đãi đặc biệt hấp dẫn!
⭐⭐⭐ Chuyển giao kiến thức giữa các trò chơi khác nhau thông qua các mô hình sinh sản. Tiến hành như sau:
+ Đào tạo 11 chính sách tốt cho 11 Atari(mở trong cửa sổ mới) trò chơi. Tạo 10.000 quỹ đạo, mỗi quỹ đạo có 1.000 bước từ chính sách cho mỗi trò chơi.
+ Phù hợp với mô hình tạo sinh (như Transformer(mở trong cửa sổ mới)) theo quỹ đạo được tạo ra bởi 10 trò chơi.
+ Sau đó tinh chỉnh mô hình đó ở trò chơi thứ 11.
+ Mục tiêu của bạn là định lượng lợi ích từ việc đào tạo trước trên 10 trò chơi. Mô hình cần lớn đến mức nào để việc đào tạo trước có + ích? Kích thước của hiệu ứng thay đổi như thế nào khi lượng dữ liệu từ trò chơi thứ 11 giảm đi 10 lần? Giảm đi 100 lần?
⭐⭐⭐ Máy biến áp với sự chú ý tuyến tính. Máy biến áp(mở trong cửa sổ mới) mô hình sử dụng sự chú ý mềm với softmax. Nếu chúng ta có thể thay vào đó sử dụng sự chú ý tuyến tính (có thể được chuyển đổi thành RNN sử dụng trọng số nhanh(mở trong cửa sổ mới)), chúng ta có thể sử dụng mô hình kết quả cho RL. Cụ thể, việc triển khai RL với một bộ chuyển đổi trên một ngữ cảnh lớn sẽ không thực tế, nhưng việc chạy một RNN với trọng số nhanh sẽ rất khả thi. Mục tiêu của bạn: thực hiện bất kỳ tác vụ mô hình hóa ngôn ngữ nào; đào tạo một bộ chuyển đổi; sau đó tìm cách để có được cùng một số bit trên mỗi ký tự/từ bằng cách sử dụng bộ chuyển đổi chú ý tuyến tính với các siêu tham số khác nhau, mà không làm tăng tổng số tham số nhiều. Chỉ có một cảnh báo: điều này có thể trở nên không thể. Nhưng một gợi ý có thể hữu ích: rất có thể các bộ chuyển đổi với sự chú ý tuyến tính yêu cầu các vectơ khóa/giá trị chiều cao hơn nhiều so với sự chú ý sử dụng softmax, điều này có thể thực hiện được mà không làm tăng đáng kể số lượng tham số.
⭐⭐⭐ Tăng cường dữ liệu đã học. Bạn có thể sử dụng VAE đã học(mở trong cửa sổ mới) của dữ liệu, để thực hiện “tăng cường dữ liệu đã học”. Đầu tiên, người ta sẽ đào tạo VAE trên dữ liệu đầu vào, sau đó mỗi điểm đào tạo sẽ được chuyển đổi bằng cách mã hóa thành không gian tiềm ẩn, sau đó áp dụng nhiễu động đơn giản (ví dụ Gaussian) trong không gian tiềm ẩn, sau đó giải mã trở lại không gian quan sát. Chúng ta có thể sử dụng cách tiếp cận như vậy để có được sự khái quát hóa được cải thiện không? Một lợi ích tiềm năng của việc tăng cường dữ liệu như vậy là nó có thể bao gồm nhiều phép biến đổi phi tuyến tính như thay đổi quan điểm và thay đổi trong ánh sáng cảnh. Chúng ta có thể xấp xỉ tập hợp các phép biến đổi mà nhãn không thay đổi không? Kiểm tra các(mở trong cửa sổ mới) công việc(mở trong cửa sổ mới) trên cái này(mở trong cửa sổ mới) đề tài(mở trong cửa sổ mới) nếu như bạn muốn nơi để bắt đầu.
⭐⭐⭐⭐ Chính quy hóa trong Học tăng cường. Thực nghiệm điều tra (và giải thích định tính) tác động của các phương pháp chính quy hóa khác nhau lên thuật toán RL được lựa chọn. Trong học sâu có giám sát, chính quy hóa cực kỳ quan trọng để cải thiện tối ưu hóa(mở trong cửa sổ mới) và để ngăn chặn việc quá khớp, với các phương pháp rất thành công như bỏ học(mở trong cửa sổ mới), chuẩn hóa hàng loạt(mở trong cửa sổ mới)và điều chỉnh L2(mở trong cửa sổ mới). Tuy nhiên, mọi người chưa được hưởng lợi từ việc điều chỉnh bằng các thuật toán học tăng cường như độ dốc chính sách(mở trong cửa sổ mới) và Q-learning(mở trong cửa sổ mới). Nhân tiện, mọi người thường sử dụng các mô hình nhỏ hơn nhiều trong RL so với trong học có giám sát, vì các mô hình lớn hoạt động kém hơn — có lẽ vì chúng quá phù hợp với kinh nghiệm gần đây. Để bắt đầu, tại đây(mở trong cửa sổ mới) là một nghiên cứu lý thuyết có liên quan nhưng cũ hơn.
⭐⭐⭐⭐⭐ Giải pháp tự động cho các bài toán bất đẳng thức Olympic. Các bài toán bất đẳng thức Olympic rất dễ diễn đạt, nhưng giải quyết(mở trong cửa sổ mới) chúng thường đòi hỏi những thao tác khéo léo. Xây dựng một tập dữ liệu các bài toán bất đẳng thức Olympic và viết một chương trình có thể giải quyết một phần lớn các bài toán đó. Không rõ liệu học máy có hữu ích ở đây không, nhưng về mặt tiềm năng, bạn có thể sử dụng một chính sách đã học để giảm hệ số phân nhánh.
Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ

Cách đổi Mật khẩu Chat GPT - Hướng dẫn đổi Pass Chat GPT 100% Thành công
Hướng dẫn Cách đăng nhập Chat GPT Nhanh nhất | Có hỗ trợ Miễn phí qua Teamview-Ultraview
Chat GPT Plus là gì? So sánh Chat GPT Plus với Chat GPT Miễn phí
Chat GPT bị giới hạn giải thích vì sao và cách khắc phục
Chat GPT là gì ? Cách đăng Ký Chat GPT Miễn Phí tại Việt Nam