Thành phần cho nghiên cứu robot

Mục tiêu

Tất cả các nhiệm vụ mới đều có khái niệm về “mục tiêu”, ví dụ như vị trí mong muốn của puck trong nhiệm vụ trượt hoặc hướng mong muốn của một khối trong nhiệm vụ thao tác khối tay. Theo mặc định, tất cả các môi trường đều sử dụng phần thưởng thưa thớt là -1 nếu mục tiêu mong muốn vẫn chưa đạt được và 0 nếu đã đạt được (trong một số dung sai). Điều này trái ngược với phần thưởng có hình dạng được sử dụng trong tập hợp các vấn đề điều khiển liên tục Gym cũ, ví dụ như Walker2d-v2 với phần thưởng có hình dạng của nó(mở trong cửa sổ mới).

Xem thêm: mua tài khoản ChatGPT Plus và tài khoản ChatGPT-4 chính hãnh giá rẻ duy nhất ngày hôm nay

Chúng tôi cũng bao gồm một biến thể với phần thưởng dày đặc cho mỗi môi trường. Tuy nhiên, chúng tôi tin rằng phần thưởng thưa thớt thực tế hơn trong các ứng dụng robot và chúng tôi khuyến khích mọi người sử dụng biến thể phần thưởng thưa thớt thay thế.

Trải nghiệm nhìn lại

Cùng với những môi trường robot mới này, chúng tôi cũng đang phát hành mã (mở trong cửa sổ mới) để xem lại kinh nghiệm nhìn lại(mở trong cửa sổ mới) (hay viết tắt là HER), một thuật toán học tăng cường có thể học từ thất bại. Kết quả của chúng tôi cho thấy HER có thể học các chính sách thành công trên hầu hết các vấn đề về robot mới chỉ từ phần thưởng ít ỏi. Dưới đây, chúng tôi cũng trình bày một số hướng tiềm năng cho nghiên cứu trong tương lai có thể cải thiện hơn nữa hiệu suất của thuật toán HER trên các nhiệm vụ này.

Hiểu về cô ấy

Để hiểu HER làm gì, chúng ta hãy xem xét trong bối cảnh của FetchSlide (mở trong cửa sổ mới), một nhiệm vụ mà chúng ta cần học cách trượt một quả bóng qua bàn và đánh trúng mục tiêu. Nỗ lực đầu tiên của chúng ta rất có thể sẽ không thành công. Trừ khi chúng ta rất may mắn, những nỗ lực tiếp theo cũng có thể sẽ không thành công. Các thuật toán học tăng cường thông thường sẽ không học được gì từ trải nghiệm này vì chúng chỉ nhận được phần thưởng không đổi (trong trường hợp này: -1) không chứa bất kỳ tín hiệu học tập nào.

Hiểu biết sâu sắc chính mà HER chính thức hóa là những gì con người làm theo trực giác: Mặc dù chúng ta không thành công trong một mục tiêu cụ thể, nhưng ít nhất chúng ta đã đạt được một mục tiêu khác. Vậy tại sao không giả vờ rằng chúng ta muốn đạt được mục tiêu này ngay từ đầu, thay vì mục tiêu mà chúng ta đặt ra ban đầu? Bằng cách thực hiện sự thay thế này, thuật toán học tăng cường có thể thu được tín hiệu học vì nó đã đạt được một số mục tiêu; ngay cả khi đó không phải là mục tiêu mà chúng ta muốn đạt được ban đầu. Nếu chúng ta lặp lại quá trình này, cuối cùng chúng ta sẽ học được cách đạt được các mục tiêu tùy ý, bao gồm cả các mục tiêu mà chúng ta thực sự muốn đạt được.

Cách tiếp cận này cho phép chúng ta học cách trượt một quả bóng qua bàn ngay cả khi phần thưởng của chúng ta hoàn toàn thưa thớt và ngay cả khi chúng ta có thể chưa bao giờ thực sự đạt được mục tiêu mong muốn ngay từ đầu. Chúng tôi gọi kỹ thuật này là Hindsight Experience Replay vì nó phát lại kinh nghiệm (một kỹ thuật thường được sử dụng trong các thuật toán RL ngoài chính sách như DQN và DDPG(mở trong cửa sổ mới)) với các mục tiêu được lựa chọn sau khi tập phim kết thúc. Do đó, HER có thể được kết hợp với bất kỳ thuật toán RL nào không theo chính sách (ví dụ, HER có thể được kết hợp với DDPG, mà chúng tôi viết là “DDPG + HER”).

Kết quả

Chúng tôi thấy HER hoạt động cực kỳ tốt trong môi trường dựa trên mục tiêu với phần thưởng thưa thớt. Chúng tôi so sánh DDPG + HER và DDPG nguyên bản trên các nhiệm vụ mới. So sánh này bao gồm các phiên bản phần thưởng thưa thớt và dày đặc của từng môi trường.

DDPG + HER với phần thưởng thưa thớt có hiệu suất vượt trội đáng kể so với tất cả các cấu hình khác và có thể học được chính sách thành công trong nhiệm vụ đầy thách thức này chỉ từ phần thưởng thưa thớt. Điều thú vị là DDPG + HER với phần thưởng dày đặc có thể học được nhưng đạt hiệu suất kém hơn. DDPG gốc hầu như không học được trong cả hai trường hợp. Chúng tôi thấy xu hướng này nói chung là đúng trong hầu hết các môi trường và chúng tôi đưa toàn bộ kết quả vào báo cáo kỹ thuật đi kèm(mở trong cửa sổ mới).

Yêu cầu nghiên cứu: Phiên bản HER

Mặc dù HER là một cách đầy hứa hẹn để học các nhiệm vụ phức tạp dựa trên mục tiêu với phần thưởng ít ỏi như môi trường robot mà chúng tôi đề xuất ở đây, vẫn còn nhiều chỗ để cải thiện. Tương tự như Yêu cầu nghiên cứu 2.0 mới được công bố gần đây của chúng tôi , chúng tôi có một số ý tưởng về cách cải thiện HER nói riêng và học tăng cường nói chung.

+ Tạo mục tiêu nhìn lại tự động . Hiện tại chúng tôi có một chiến lược được mã hóa cứng để lựa chọn các mục tiêu nhìn lại mà chúng tôi muốn thay thế. Sẽ rất thú vị nếu chiến lược này có thể được học thay thế.

+ HER không thiên vị . Sự thay thế mục tiêu thay đổi sự phân phối kinh nghiệm theo cách không có nguyên tắc. Về mặt lý thuyết, sự thiên vị này có thể dẫn đến sự bất ổn, mặc dù chúng ta không thấy điều này xảy ra trong thực tế. Tuy nhiên, sẽ rất tuyệt nếu có thể đưa ra một phiên bản HER không thiên vị, ví dụ như bằng cách sử dụng lấy mẫu tầm quan trọng(mở trong cửa sổ mới).

+ HER + HRL . Sẽ rất thú vị khi kết hợp thêm HER với một ý tưởng gần đây(mở trong cửa sổ mới) trong học tăng cường phân cấp (HRL). Thay vì chỉ áp dụng HER cho các mục tiêu, nó cũng có thể được áp dụng cho các hành động do chính sách cấp cao hơn tạo ra. Ví dụ, nếu cấp cao hơn yêu cầu cấp thấp hơn đạt được mục tiêu A nhưng thay vào đó, mục tiêu B đã đạt được, chúng ta có thể cho rằng cấp cao hơn đã yêu cầu chúng ta đạt được mục tiêu B ban đầu.

+ Các hàm giá trị phong phú hơn . Sẽ rất thú vị khi mở rộng các hàm giá trị gần đây (mở trong cửa sổ mới) nghiên cứu(mở trong cửa sổ mới) và điều kiện hóa hàm giá trị trên các đầu vào bổ sung như hệ số chiết khấu hoặc ngưỡng thành công và (có thể?) cũng thay thế chúng khi nhìn lại.

+ Truyền bá thông tin nhanh hơn . Hầu hết các chính sách sâu(mở trong cửa sổ mới) sự gia cố(mở trong cửa sổ mới) học hỏi (mở trong cửa sổ mới) thuật toán(mở trong cửa sổ mới) sử dụng mạng lưới mục tiêu để ổn định quá trình đào tạo. Tuy nhiên, vì những thay đổi cần thời gian để lan truyền, điều này sẽ hạn chế tốc độ đào tạo và chúng tôi đã nhận thấy trong các thí nghiệm của mình rằng đây thường là yếu tố quan trọng nhất quyết định tốc độ học DDPG+HER. Sẽ rất thú vị khi nghiên cứu các phương tiện khác để ổn định quá trình đào tạo mà không gây ra sự chậm lại như vậy.

+ HER + trả về nhiều bước . Trải nghiệm được sử dụng trong HER cực kỳ không theo chính sách vì chúng tôi thay thế các mục tiêu. Điều này khiến việc sử dụng nó với trả về nhiều bước trở nên khó khăn. Tuy nhiên, lợi nhuận nhiều bước được mong muốn vì chúng cho phép truyền bá thông tin về lợi nhuận nhanh hơn nhiều.

+ HER theo chính sách . Hiện tại, HER chỉ có thể được sử dụng với các thuật toán ngoài chính sách vì chúng tôi thay thế các mục tiêu, khiến trải nghiệm trở nên cực kỳ ngoài chính sách. Tuy nhiên, các thuật toán hiện đại gần đây như PPO(mở trong cửa sổ mới) thể hiện các đặc điểm ổn định rất hấp dẫn. Sẽ rất thú vị khi điều tra xem HER có thể được kết hợp với các thuật toán chính sách như vậy hay không, ví dụ như bằng cách lấy mẫu theo mức độ quan trọng(mở trong cửa sổ mới). Đã có một số kết quả sơ bộ(mở trong cửa sổ mới) theo hướng này.

+ RL với các hành động rất thường xuyên . Các thuật toán RL hiện tại rất nhạy cảm với tần suất thực hiện các hành động, đó là lý do tại sao kỹ thuật bỏ qua khung hình thường được sử dụng trên Atari. Trong các miền điều khiển liên tục, hiệu suất sẽ bằng không khi tần suất thực hiện các hành động tăng lên vô cực, nguyên nhân là do hai yếu tố: khám phá không nhất quán và sự cần thiết phải khởi động nhiều lần hơn để truyền bá thông tin về lợi nhuận ngược thời gian. Làm thế nào để thiết kế một thuật toán RL hiệu quả về mẫu có thể duy trì hiệu suất của nó ngay cả khi tần suất thực hiện các hành động tăng lên vô cực?

+ Kết hợp HER với những tiến bộ gần đây trong RL . Có một khối lượng lớn các nghiên cứu gần đây cải thiện các khía cạnh khác nhau của RL. Để bắt đầu, HER có thể được kết hợp với Prioritized Experience Replay(mở trong cửa sổ mới), phân phối RL(mở trong cửa sổ mới), RL được điều chỉnh theo entropy(mở trong cửa sổ mới), hoặc đảo ngược việc tạo ra chương trình giảng dạy(mở trong cửa sổ mới).

Bạn có thể tìm thấy thông tin bổ sung và tài liệu tham khảo về các đề xuất này và về môi trường phòng tập thể dục mới trong báo cáo kỹ thuật kèm theo của chúng tôi(mở trong cửa sổ mới).

Sử dụng môi trường dựa trên mục tiêu

Việc giới thiệu khái niệm "mục tiêu" đòi hỏi một vài thay đổi tương thích ngược với API Gym hiện có(mở trong cửa sổ mới):

+ Tất cả các môi trường dựa trên mục tiêu đều sử dụng gym.spaces.Dict không gian quan sát. Môi trường được mong đợi bao gồm một mục tiêu mong muốn, mà tác nhân nên cố gắng đạt được ( desired_goal), mục tiêu mà nó hiện đã đạt được thay vào đó ( achieved_goal), và quan sát thực tế ( observation), ví dụ trạng thái của rô-bốt.

+ Chúng tôi trình bày hàm phần thưởng của một môi trường và do đó cho phép tính toán lại phần thưởng với các mục tiêu đã thay đổi. Điều này cho phép các thuật toán theo kiểu HER thay thế các mục tiêu.

Sau đây là một ví dụ đơn giản tương tác với một trong những môi trường dựa trên mục tiêu mới và thực hiện thay thế mục tiêu:

importnumpyasnp

importgym

.()env=gymmake'FetchReach-v0'

.()obs=envreset

done=False

(, ):defpolicyobservationdesired_goal

# Here you would implement your smarter policy. In this case,

# we just sample random actions.

..()returnenvaction_spacesample

:whilenotdone

([], [])action=policyobs'observation'obs'desired_goal'

, , , .()obsrewarddoneinfo=envstepaction

# If we want, we can substitute a goal here and re-compute

# the reward. For instance, we can just pretend that the desired

# goal was what we achieved all along.

[].()substitute_goal=obs'achieved_goal'copy

.(substitute_reward=envcompute_reward

[], , )obs'achieved_goal'substitute_goalinfo

(.(print'reward is {}, substitute_reward is {}'format

, ))rewardsubstitute_reward

view raw example.py hosted with ❤ by GitHub

Các môi trường dựa trên mục tiêu mới có thể được sử dụng với các thuật toán học tăng cường tương thích với Gym hiện có, chẳng hạn như Baselines(mở trong cửa sổ mới). Sử dụng gym.wrappers.FlattenDictWrapper để làm phẳng không gian quan sát dựa trên dict thành một mảng:

importnumpyasnp

importgym

.()env=gymmake'FetchReach-v0'

# Simply wrap the goal-based environment using FlattenDictWrapper

# and specify the keys that you would like to use.

..(env=gymwrappersFlattenDictWrapper

, [, ])envdict_keys='observation''desired_goal'

# From now on, you can use the wrapper env as per usual:

.()ob=envreset

(.) printobshape# is now just an np.array