zalo
Chat ngay

Tổng quát hóa từ mô phỏng

Các kỹ thuật robot mới nhất của chúng tôi cho phép bộ điều khiển robot, được đào tạo hoàn toàn về mô phỏng và triển khai trên robot vật lý, phản ứng với những thay đổi không mong muốn trong môi trường khi chúng giải quyết các nhiệm vụ đơn giản. Nghĩa là, chúng tôi đã sử dụng các kỹ thuật này để xây dựng các hệ thống vòng kín thay vì các hệ thống vòng hở như trước đây.

Trình mô phỏng không cần phải khớp với thế giới thực về ngoại hình hoặc động lực; thay vào đó, chúng tôi ngẫu nhiên hóa các khía cạnh liên quan của môi trường, từ ma sát đến độ trễ hành động đến tiếng ồn cảm biến. Kết quả mới của chúng tôi cung cấp thêm bằng chứng cho thấy robot đa năng có thể được chế tạo bằng cách đào tạo hoàn toàn trong mô phỏng, sau đó là một lượng nhỏ tự hiệu chuẩn trong thế giới thực.

Động lực ngẫu nhiên

Chúng tôi đã phát triển  động lực ngẫu nhiên để huấn luyện một robot thích nghi với động lực học chưa biết trong thế giới thực. Trong quá trình huấn luyện, chúng tôi ngẫu nhiên hóa một tập hợp lớn gồm chín mươi lăm thuộc tính xác định động lực học của môi trường, chẳng hạn như thay đổi khối lượng của từng liên kết trong thân robot; ma sát và giảm chấn của vật thể mà nó đang được huấn luyện; chiều cao của bàn mà vật thể đang ở trên; độ trễ giữa các hành động; tiếng ồn trong các quan sát của nó; v.v.

Chúng tôi đã sử dụng cách tiếp cận này để đào tạo một  LSTM- chính sách dựa trên việc đẩy một quả bóng khúc côn cầu quanh bàn. Mạng lưới truyền thẳng của chúng tôi  không thực hiện được  nhiệm vụ này, trong khi LSTM có thể sử dụng các quan sát trước đây của chúng để phân tích động lực của thế giới và điều chỉnh hành vi của chúng cho phù hợp.

Từ tầm nhìn đến hành động

Chúng tôi cũng đã đào tạo một robot từ đầu đến cuối trong mô phỏng bằng cách sử dụng học tăng cường (RL) và triển khai chính sách kết quả trên một robot vật lý. Hệ thống kết quả ánh xạ tầm nhìn trực tiếp đến hành động mà không cần cảm biến đặc biệt và có thể thích ứng với phản hồi trực quan.

Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ

Sự phong phú của các kết quả RL với các robot mô phỏng có thể khiến RL có vẻ dễ dàng giải quyết hầu hết các nhiệm vụ về robot. Nhưng các thuật toán RL thông thường chỉ hoạt động tốt trên các nhiệm vụ mà những nhiễu loạn nhỏ đối với hành động của bạn có thể mang lại sự thay đổi gia tăng cho phần thưởng. Một số nhiệm vụ về robot có phần thưởng đơn giản, như đi bộ, nơi bạn có thể được tính điểm dựa trên quãng đường đã đi. Nhưng hầu hết các nhiệm vụ thì  không —để xác định phần thưởng dày đặc cho việc xếp khối, bạn cần mã hóa rằng cánh tay ở gần khối, rằng cánh tay tiến đến khối theo đúng hướng, rằng khối được nâng lên khỏi mặt đất, khoảng cách từ khối đến vị trí mong muốn, v.v.

Chúng tôi đã dành nhiều tháng không thành công khi cố gắng sử dụng các thuật toán RL thông thường để thực hiện các nhiệm vụ nhặt và đặt trước khi cuối cùng phát triển một thuật toán học tăng cường mới,  Hindsight Experience Replay (HER), cho phép các tác nhân học từ phần thưởng nhị phân bằng cách giả vờ rằng thất bại là điều họ muốn làm từ đầu và học từ đó. (Theo phép tương tự, hãy tưởng tượng bạn đang tìm một trạm xăng nhưng lại đến một tiệm bánh pizza. Bạn vẫn không biết lấy xăng ở đâu, nhưng giờ bạn đã biết được nơi để mua pizza.) Chúng tôi cũng sử dụng  tính năng ngẫu nhiên miền  trên các hình dạng trực quan để học một hệ thống thị giác đủ mạnh mẽ cho thế giới vật lý.

Triển khai HER của chúng tôi sử dụng kỹ thuật actor-critic với thông tin bất đối xứng. (Actor    chính sách, và  critic  là một mạng lưới nhận các cặp hành động/trạng thái và ước tính giá trị Q của chúng, hoặc tổng phần thưởng trong tương lai, cung cấp tín hiệu đào tạo cho actor.) Trong khi critic có quyền truy cập vào trạng thái đầy đủ của trình mô phỏng, actor chỉ có quyền truy cập vào dữ liệu RGB và độ sâu. Do đó, critic có thể cung cấp phản hồi hoàn toàn chính xác, trong khi actor chỉ sử dụng dữ liệu có trong thế giới thực.

Chi phí

Cả hai kỹ thuật đều làm tăng yêu cầu tính toán: ngẫu nhiên hóa động lực làm chậm quá trình đào tạo đi 3 lần, trong khi học từ hình ảnh thay vì từ trạng thái chậm hơn khoảng 5–10 lần.

Chúng tôi thấy ba cách tiếp cận để xây dựng robot đa năng: đào tạo trên các đội tàu lớn của robot vật lý, làm cho các trình mô phỏng ngày càng phù hợp với thế giới thực và ngẫu nhiên hóa trình mô phỏng để cho phép mô hình khái quát hóa thành thế giới thực. Chúng tôi ngày càng tin rằng cách thứ ba sẽ là phần quan trọng nhất của giải pháp.

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !