.png)
Chúng tôi đang phát hành một phương pháp tiếp cận siêu học tập thử nghiệm có tên là Evolved Policy Gradients, một phương pháp phát triển hàm mất mát của các tác nhân học tập, có thể cho phép đào tạo nhanh các tác vụ mới. Các tác nhân được đào tạo bằng EPG có thể thành công trong các tác vụ cơ bản tại thời điểm kiểm tra nằm ngoài chế độ đào tạo của chúng, chẳng hạn như học cách điều hướng đến một vật thể ở phía bên kia phòng so với nơi nó được đặt trong quá trình đào tạo.
EPG đào tạo các tác nhân để có khái niệm trước về những gì cấu thành nên tiến trình trong một nhiệm vụ mới. Thay vì mã hóa kiến thức trước thông qua mạng lưới chính sách đã học, EPG mã hóa nó thành một tổn thất đã học (mở trong cửa sổ mới) chức năng(mở trong cửa sổ mới). Sau đó, các tác nhân có thể sử dụng hàm mất mát này, được định nghĩa là mạng nơ-ron tích chập theo thời gian, để học nhanh một tác vụ mới. Chúng tôi đã chỉ ra rằng EPG có thể khái quát hóa thành các tác vụ thời gian kiểm tra ngoài phân phối , thể hiện hành vi khác biệt về mặt định tính so với các thuật toán siêu học phổ biến khác. Trong các thử nghiệm, chúng tôi cũng thấy rằng EPG có thể đào tạo các tác nhân nhanh hơn PPO, một phương pháp chính sách gradient có sẵn. EPG liên quan đến công trình trước đây về việc phát triển phần thưởng chức năng vì Các tác nhân RL, nhưng khái quát hóa ý tưởng này thành việc phát triển một hàm mất mát hoàn chỉnh, nghĩa là hàm mất mát phải học hiệu quả thuật toán RL ở bên trong.
Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ
Trực giác đằng sau EPG xuất phát từ một điều mà tất cả chúng ta đều quen thuộc: cố gắng học một kỹ năng mới và trải nghiệm sự thất vọng xen kẽ và niềm vui liên quan đến quá trình đó. Giả sử bạn mới bắt đầu học chơi đàn violin. Ngay cả khi không có hướng dẫn, bạn sẽ ngay lập tức có cảm giác về những gì cần thử và khi lắng nghe những âm thanh bạn tạo ra, bạn sẽ có cảm giác về việc mình có đang tiến bộ hay không - đó là vì bạn thực sự có quyền truy cập vào các hàm phần thưởng nội bộ được định hình rất tốt(mở trong cửa sổ mới), bắt nguồn từ kinh nghiệm trước đó về các nhiệm vụ vận động khác và thông qua quá trình tiến hóa sinh học. Ngược lại, hầu hết các tác nhân học tăng cường (RL) tiếp cận mỗi nhiệm vụ mới mà không sử dụng kiến thức trước đó. Thay vào đó, chúng hoàn toàn dựa vào các tín hiệu phần thưởng bên ngoài để hướng dẫn hành vi ban đầu của chúng. Xuất phát từ một bảng trắng như vậy, không có gì ngạc nhiên khi các tác nhân RL hiện tại mất nhiều thời gian hơn hơn con người trong việc học các kỹ năng đơn giản. EPG tiến một bước tới các tác nhân không phải là tờ giấy trắng mà thay vào đó biết ý nghĩa của việc đạt được tiến bộ trong một nhiệm vụ mới, bằng cách có kinh nghiệm đạt được tiến bộ trong các nhiệm vụ tương tự trong quá khứ.
EPG bao gồm hai vòng lặp tối ưu hóa. Trong vòng lặp bên trong, một tác nhân học từ đầu để giải quyết một nhiệm vụ cụ thể được lấy mẫu từ một nhóm các nhiệm vụ. Nhóm các nhiệm vụ có thể là “di chuyển kẹp đến vị trí mục tiêu [x, y]” và một nhiệm vụ cụ thể trong nhóm này có thể là “di chuyển kẹp đến vị trí [50, 100]”. Vòng lặp bên trong sử dụng phương pháp giảm dần độ dốc ngẫu nhiên (SGD) để tối ưu hóa chính sách của tác nhân đối với hàm mất mát được đề xuất bởi vòng lặp bên ngoài. Vòng lặp bên ngoài đánh giá lợi nhuận đạt được sau khi học vòng lặp bên trong và điều chỉnh các tham số của hàm mất mát, sử dụng Chiến lược tiến hóa(mở trong cửa sổ mới) (ES), đề xuất một khoản lỗ mới sẽ dẫn đến lợi nhuận cao hơn.
Việc có tổn thất đã học mang lại một số lợi thế so với các phương pháp RL hiện tại: sử dụng ES để phát triển hàm tổn thất cho phép chúng ta tối ưu hóa mục tiêu thực (hiệu suất chính sách được đào tạo cuối cùng) thay vì lợi nhuận ngắn hạn và EPG cải thiện các thuật toán RL tiêu chuẩn bằng cách cho phép hàm tổn thất thích ứng với môi trường và lịch sử tác nhân.
Đã có một loạt công việc gần đây TRÊN siêu học tập chính sách, và đáng để hỏi tại sao lại học một hàm mất mát thay vì học trực tiếp một chính sách? Học các chính sách tuần hoàn có xu hướng phù hợp quá mức với nhiệm vụ đang làm, trong khi học các khởi tạo chính sách có tính biểu đạt hạn chế khi nói đến việc khám phá. Động lực của chúng tôi là chúng tôi mong đợi các hàm mất mát là loại đối tượng có thể khái quát hóa rất tốt trên các nhiệm vụ khác nhau đáng kể. Điều này chắc chắn đúng với các hàm mất mát được thiết kế thủ công: một hàm mất mát RL được thiết kế tốt, chẳng hạn như trong PPO, có thể được áp dụng rất rộng rãi, tìm thấy ứng dụng trong các vấn đề từ chơi trò chơi Atari đến điều khiển robot.
Để kiểm tra khả năng khái quát hóa của EPG, chúng tôi đã tiến hành một thí nghiệm đơn giản. Chúng tôi đã phát triển tổn thất EPG để có hiệu quả trong việc khiến "kiến" đi đến các mục tiêu được định vị ngẫu nhiên ở nửa bên phải của đấu trường. Sau đó, chúng tôi đóng băng tổn thất và đưa cho kiến một mục tiêu mới, lần này là ở nửa bên trái của đấu trường. Thật ngạc nhiên, kiến đã học được cách đi về bên trái! Đây là cách đường cong học tập của chúng trông như thế nào (các đường màu đỏ trên đồ thị).
- Trong tay tài khoản ChatGPT 4 chỉ với vài bước đơn giản tại đây
Kết quả này rất thú vị đối với chúng tôi vì nó chứng minh được sự khái quát hóa cho một nhiệm vụ nằm ngoài phân phối đào tạo . Loại khái quát hóa này có thể khá khó đạt được. Chúng tôi đã so sánh EPG với một thuật toán siêu học thay thế, được gọi là RL2, cố gắng học trực tiếp một chính sách có thể thích ứng với các tác vụ mới. Trong thí nghiệm của chúng tôi, RL2 thực sự đã thành công trong việc khiến các tác nhân đi đến các mục tiêu ở nửa bên phải của màn hình. Tuy nhiên, khi được đưa ra mục tiêu thời gian thử nghiệm ở nửa bên trái của màn hình, về mặt định tính, nó đã thất bại và chỉ tiếp tục đi về bên phải. Theo một nghĩa nào đó, nó "quá phù hợp" với tập hợp các tác vụ mà nó được đào tạo (tức là đi về bên phải).
Giống như tất cả các phương pháp tiếp cận siêu học, phương pháp của chúng tôi vẫn còn nhiều hạn chế. Hiện tại, chúng tôi có thể đào tạo một tổn thất EPG để có hiệu quả đối với một nhóm nhỏ các nhiệm vụ tại một thời điểm, ví dụ, khiến một con kiến đi sang trái và sang phải. Tuy nhiên, tổn thất EPG đối với nhóm nhiệm vụ này khó có thể có hiệu quả đối với một loại nhiệm vụ hoàn toàn khác, chẳng hạn như chơi Space Invaders. Ngược lại, tổn thất RL tiêu chuẩn có mức độ tổng quát này—cùng một hàm mất mát có thể được sử dụng để học nhiều kỹ năng khác nhau. EPG đạt được hiệu suất bằng cách mất đi tính tổng quát. Vẫn còn một chặng đường dài phía trước để hướng tới các phương pháp siêu học vừa vượt trội hơn các phương pháp RL tiêu chuẩn vừa có cùng mức độ tổng quát.

Cách đổi Mật khẩu Chat GPT - Hướng dẫn đổi Pass Chat GPT 100% Thành công
Hướng dẫn Cách đăng nhập Chat GPT Nhanh nhất | Có hỗ trợ Miễn phí qua Teamview-Ultraview
Chat GPT Plus là gì? So sánh Chat GPT Plus với Chat GPT Miễn phí
Chat GPT bị giới hạn giải thích vì sao và cách khắc phục
Chat GPT là gì ? Cách đăng Ký Chat GPT Miễn Phí tại Việt Nam