Học sự khéo léo

Mặc dù bàn tay người đầu tiên đã được phát triển cách đây nhiều thập kỷ, việc sử dụng chúng để điều khiển các vật thể một cách hiệu quả vẫn là một thách thức lâu dài trong điều khiển rô-bốt. Không giống như các vấn đề khác như vận động (mở trong cửa sổ mới), tiến trình thao tác khéo léo bằng cách sử dụng các phương pháp tiếp cận robot truyền thống diễn ra chậm và các kỹ thuật hiện tại(mở trong cửa sổ mới) vẫn còn hạn chế về khả năng điều khiển các vật thể trong thế giới thực.

Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ!

Việc định hướng lại một vật trong tay đòi hỏi phải giải quyết các vấn đề sau:

+ Hoạt động trong thế giới thực. Học tăng cường đã cho thấy nhiều thành công trong mô phỏng và trò chơi điện tử, nhưng có kết quả tương đối hạn chế trong thế giới thực. Chúng tôi thử nghiệm Dactyl trên một robot vật lý.

+ Kiểm soát đa chiều. Shadow Dexterous Hand có 24 bậc tự do so với 7 bậc tự do của cánh tay robot thông thường.

+ Quan sát nhiễu và một phần. Dactyl hoạt động trong thế giới vật lý và do đó phải xử lý các phép đo cảm biến nhiễu và bị trễ. Khi cảm biến đầu ngón tay bị các ngón tay khác hoặc vật thể che khuất, Dactyl phải làm việc với thông tin một phần. Nhiều khía cạnh của hệ thống vật lý như ma sát và trượt không thể quan sát trực tiếp và phải suy ra.

+ Thao tác nhiều hơn một đối tượng. Dactyl được thiết kế đủ linh hoạt để định hướng lại nhiều loại đối tượng. Điều này có nghĩa là cách tiếp cận của chúng tôi không thể sử dụng các chiến lược chỉ áp dụng cho hình dạng đối tượng cụ thể.

Dactyl học cách giải quyết nhiệm vụ định hướng lại đối tượng hoàn toàn trong mô phỏng mà không cần bất kỳ sự can thiệp nào của con người. Sau giai đoạn đào tạo này, chính sách đã học sẽ hoạt động trên robot thực mà không cần bất kỳ sự tinh chỉnh nào.

Các phương pháp học tập để điều khiển robot phải đối mặt với một tình thế tiến thoái lưỡng nan. Robot mô phỏng có thể dễ dàng cung cấp đủ dữ liệu để đào tạo các chính sách phức tạp, nhưng hầu hết các vấn đề về điều khiển không thể được mô hình hóa đủ chính xác để các chính sách đó chuyển sang robot thực. Ngay cả việc mô hình hóa những gì xảy ra khi hai vật thể chạm vào nhau—vấn đề cơ bản nhất trong điều khiển—cũng là một lĩnh vực nghiên cứu tích cực (mở trong cửa sổ mới) không có giải pháp nào được chấp nhận rộng rãi. Việc đào tạo trực tiếp trên robot vật lý cho phép chính sách học hỏi từ vật lý thực tế, nhưng các thuật toán ngày nay sẽ đòi hỏi nhiều năm kinh nghiệm để giải quyết một vấn đề như định hướng lại vật thể.

Cách tiếp cận của chúng tôi, ngẫu nhiên hóa miền , học trong một mô phỏng được thiết kế để cung cấp nhiều trải nghiệm khác nhau thay vì tối đa hóa tính hiện thực. Điều này mang lại cho chúng tôi những điều tốt nhất của cả hai cách tiếp cận: bằng cách học trong mô phỏng, chúng tôi có thể thu thập thêm kinh nghiệm một cách nhanh chóng bằng cách mở rộng quy mô và bằng cách giảm bớt tính hiện thực, chúng tôi có thể giải quyết các vấn đề mà trình mô phỏng chỉ có thể mô hình hóa gần đúng.

Nó đã được chứng minh (bởi OpenAI và những người khác) rằng việc ngẫu nhiên hóa miền có thể giải quyết các vấn đề ngày càng phức tạp—việc ngẫu nhiên hóa miền thậm chí còn được sử dụng để huấn luyện OpenAI Five . Ở đây, chúng tôi muốn xem liệu việc mở rộng quy mô ngẫu nhiên hóa miền có thể giải quyết được một nhiệm vụ vượt xa khả năng của các phương pháp hiện tại trong ngành robot hay không.

Chúng tôi đã xây dựng một phiên bản mô phỏng của thiết lập robot của chúng tôi bằng cách sử dụng MuJoCo công cụ vật lý. Mô phỏng này chỉ là một sự xấp xỉ thô sơ của robot thực tế:

+ Đo các thuộc tính vật lý như ma sát, giảm chấn và lực cản lăn rất cồng kềnh và khó khăn. Chúng cũng thay đổi theo thời gian khi robot bị hao mòn.

+ MuJoCo là một vật thể cứng mô phỏng, nghĩa là nó không thể mô phỏng được cao su biến dạng ở đầu ngón tay hoặc sự kéo giãn của gân.

+ Robot của chúng tôi chỉ có thể điều khiển vật thể bằng cách liên tục tiếp xúc với nó. Tuy nhiên, lực tiếp xúc rất khó tái tạo chính xác trong mô phỏng.

Quá trình mô phỏng có thể trở nên thực tế hơn bằng cách hiệu chỉnh các thông số để phù hợp với hành vi của robot, nhưng nhiều hiệu ứng trong số này không thể được mô phỏng chính xác trong các trình mô phỏng hiện tại.

Thay vào đó, chúng tôi đào tạo chính sách trên một phân phối các môi trường mô phỏng trong đó các thuộc tính vật lý và trực quan được chọn ngẫu nhiên. Các giá trị ngẫu nhiên là một cách tự nhiên để biểu diễn những điều không chắc chắn mà chúng ta có về hệ thống vật lý và cũng ngăn chặn việc quá khớp với một môi trường mô phỏng duy nhất. Nếu một chính sách có thể hoàn thành nhiệm vụ trên tất cả các môi trường mô phỏng, thì nó sẽ có nhiều khả năng hoàn thành nhiệm vụ đó trong thế giới thực.

Học cách kiểm soát

Bằng cách xây dựng các mô phỏng hỗ trợ chuyển giao, chúng tôi đã giảm vấn đề điều khiển một robot trong thế giới thực xuống còn hoàn thành một nhiệm vụ trong mô phỏng, đây là một vấn đề rất phù hợp với việc học tăng cường. Trong khi nhiệm vụ thao tác một vật thể trong một bàn tay mô phỏng đã khá khó khăn , thì việc học cách thực hiện điều đó trên tất cả các kết hợp của các thông số vật lý ngẫu nhiên còn khó hơn nhiều.

Để khái quát hóa trên các môi trường, chính sách có thể thực hiện các hành động khác nhau trong các môi trường có động lực khác nhau là rất hữu ích. Vì hầu hết các tham số động lực không thể suy ra từ một quan sát duy nhất, chúng tôi đã sử dụng LSTM—một loại mạng nơ-ron có bộ nhớ—giúp mạng có thể tìm hiểu về động lực của môi trường. LSTM đạt được số vòng quay gấp đôi trong mô phỏng so với chính sách không có bộ nhớ.

Dactyl học bằng Rapid , triển khai Proximal Policy Optimization được mở rộng quy mô lớn được phát triển để cho phép OpenAI Five giải quyết Dota 2. Chúng tôi sử dụng kiến trúc mô hình, môi trường và siêu tham số khác với OpenAI Five, nhưng chúng tôi sử dụng cùng thuật toán và mã đào tạo. Rapid đã sử dụng 6144 lõi CPU và 8 GPU để đào tạo chính sách của chúng tôi, thu thập khoảng một trăm năm kinh nghiệm trong 50 giờ.

Để phát triển và thử nghiệm, chúng tôi đã xác thực chính sách kiểm soát của mình đối với các đối tượng có cảm biến theo dõi chuyển động nhúng để phân lập hiệu suất của mạng lưới kiểm soát và thị giác.

Học cách nhìn

Dactyl được thiết kế để có thể thao tác với các vật thể tùy ý, không chỉ những vật thể đã được sửa đổi đặc biệt để hỗ trợ theo dõi. Do đó, Dactyl sử dụng hình ảnh camera RGB thông thường để ước tính vị trí và hướng của vật thể.

Chúng tôi đào tạo một bộ ước tính tư thế bằng cách sử dụng mạng nơ-ron tích chập. Mạng nơ-ron lấy luồng video từ ba camera được bố trí xung quanh bàn tay rô-bốt và đưa ra vị trí và hướng ước tính của vật thể. Chúng tôi sử dụng nhiều camera để giải quyết sự mơ hồ và che khuất. Chúng tôi lại sử dụng ngẫu nhiên hóa miền để đào tạo mạng này chỉ trong mô phỏng bằng cách sử dụng Unity nền tảng phát triển trò chơi, có thể mô hình hóa nhiều hiện tượng hình ảnh đa dạng hơn Mujoco.

Bằng cách kết hợp hai mạng lưới độc lập này, mạng lưới điều khiển định hướng lại vật thể theo tư thế của nó và mạng lưới thị giác ánh xạ hình ảnh từ camera đến tư thế của vật thể, Dactyl có thể điều khiển một vật thể bằng cách nhìn thấy nó.

Kết quả

Khi triển khai hệ thống của chúng tôi, chúng tôi nhận thấy rằng Dactyl sử dụng một bộ chiến lược thao tác khéo léo trong tay phong phú để giải quyết nhiệm vụ. Những chiến lược này cũng thường được con người sử dụng. Tuy nhiên, chúng ta không dạy chúng cho hệ thống của mình một cách rõ ràng; tất cả các hành vi đều được phát hiện một cách tự động.

Chúng tôi nhận thấy rằng đối với các thao tác nắm chính xác, chẳng hạn như thao tác nắm Tip Pinch, Dactyl sử dụng ngón cái và ngón út. Con người có xu hướng sử dụng ngón cái và ngón trỏ hoặc ngón giữa thay thế. Tuy nhiên, ngón út của bàn tay robot linh hoạt hơn do có thêm một mức độ tự do, điều này có thể giải thích tại sao Dactyl thích nó. Điều này có nghĩa là Dactyl có thể khám phá lại các cách nắm bắt được tìm thấy ở con người, nhưng điều chỉnh chúng để phù hợp hơn với những hạn chế và khả năng của chính cơ thể nó.

Hiệu suất chuyển giao

Chúng tôi đã kiểm tra xem Dactyl có thể thực hiện bao nhiêu vòng quay trước khi thả vật thể, hết thời gian hoặc đạt 50 lần thành công. Các chính sách của chúng tôi được đào tạo hoàn toàn trong mô phỏng đã có thể thao tác thành công các vật thể trong thế giới thực.

Đối với nhiệm vụ thao tác khối, các chính sách được đào tạo với tính ngẫu nhiên có thể đạt được nhiều vòng quay hơn so với các chính sách được đào tạo mà không có tính ngẫu nhiên, như có thể thấy trong kết quả bên dưới. Ngoài ra, sử dụng mạng điều khiển với tư thế ước tính từ thị giác thực hiện gần như tốt như đọc tư thế trực tiếp từ cảm biến theo dõi chuyển động.

Sự ngẫu nhiên	Theo dõi đối tượng	Số lượng thành công tối đa	Số lượng thành công trung bình
Tất cả các ngẫu nhiên	Tầm nhìn	46	11,5
Tất cả các ngẫu nhiên	Theo dõi chuyển động	50	13
Không có sự ngẫu nhiên	Theo dõi chuyển động	6	0

Tiến trình học tập

Phần lớn thời gian đào tạo được dành để làm cho chính sách mạnh mẽ với các động lực vật lý khác nhau. Học cách xoay một vật thể trong mô phỏng mà không cần ngẫu nhiên hóa đòi hỏi khoảng 3 năm kinh nghiệm mô phỏng, trong khi đạt được hiệu suất tương tự trong mô phỏng hoàn toàn ngẫu nhiên đòi hỏi khoảng 100 năm kinh nghiệm.

Điều gì làm chúng tôi ngạc nhiên

+ Cảm biến xúc giác không cần thiết để thao tác các vật thể trong thế giới thực . Robot của chúng tôi chỉ nhận được vị trí của năm đầu ngón tay cùng với vị trí và hướng của khối lập phương. Mặc dù bàn tay robot có cảm biến xúc giác trên đầu ngón tay, nhưng chúng tôi không cần sử dụng chúng. Nhìn chung, chúng tôi thấy hiệu suất tốt hơn khi sử dụng một bộ cảm biến giới hạn có thể được mô hình hóa hiệu quả trong trình mô phỏng thay vì một bộ cảm biến phong phú với các giá trị khó mô hình hóa.

+ Các phép ngẫu nhiên được phát triển cho một đối tượng được khái quát hóa cho các đối tượng khác có các đặc tính tương tự . Sau khi phát triển hệ thống của chúng tôi cho vấn đề thao tác một khối, chúng tôi đã in một lăng trụ bát giác, đào tạo một chính sách mới bằng cách sử dụng hình dạng của nó và cố gắng thao tác nó. Điều khiến chúng tôi ngạc nhiên là nó đạt được hiệu suất cao chỉ bằng cách sử dụng các phép ngẫu nhiên mà chúng tôi đã thiết kế cho khối. Ngược lại, một chính sách thao tác một hình cầu chỉ có thể đạt được một vài thành công liên tiếp, có lẽ là vì chúng tôi đã không ngẫu nhiên hóa bất kỳ tham số mô phỏng nào mô hình hóa hành vi lăn.

+ Với robot vật lý, kỹ thuật hệ thống tốt cũng quan trọng như thuật toán tốt . Có một thời điểm, chúng tôi nhận thấy rằng một kỹ sư luôn đạt được hiệu suất tốt hơn nhiều so với những người khác khi chạy cùng một chính sách. Sau đó, chúng tôi phát hiện ra rằng anh ta có một chiếc máy tính xách tay nhanh hơn, ẩn chứa một lỗi thời gian làm giảm hiệu suất. Sau khi lỗi được sửa, hiệu suất đã được cải thiện cho phần còn lại của nhóm.

Những gì không thành công

Chúng tôi cũng ngạc nhiên khi thấy một số kỹ thuật thường dùng không cải thiện được kết quả.

+ Giảm thời gian phản ứng không cải thiện hiệu suất . Theo quan niệm thông thường, việc giảm thời gian giữa các hành động sẽ cải thiện hiệu suất vì những thay đổi giữa các trạng thái nhỏ hơn và do đó dễ dự đoán hơn. Thời gian hiện tại của chúng ta giữa các hành động là 80ms, nhỏ hơn thời gian phản ứng của con người là 150-250ms, nhưng lớn hơn đáng kể so với thời gian tính toán của mạng nơ-ron là khoảng 25ms. Đáng ngạc nhiên là việc giảm thời gian giữa các hành động xuống 40ms đòi hỏi thêm thời gian đào tạo nhưng không cải thiện đáng kể hiệu suất trong thế giới thực. Có thể quy tắc ngón tay cái này ít áp dụng cho các mô hình mạng nơ-ron hơn là các mô hình tuyến tính đang được sử dụng phổ biến hiện nay.

+ Sử dụng dữ liệu thực để đào tạo chính sách thị giác của chúng tôi không tạo ra sự khác biệt . Trong các thử nghiệm ban đầu, chúng tôi đã sử dụng kết hợp dữ liệu mô phỏng và dữ liệu thực để cải thiện các mô hình của mình. Dữ liệu thực được thu thập từ các thử nghiệm chính sách của chúng tôi đối với một đối tượng có các điểm đánh dấu theo dõi được nhúng. Tuy nhiên, dữ liệu thực có những nhược điểm đáng kể so với dữ liệu mô phỏng. Thông tin vị trí từ các điểm đánh dấu theo dõi có độ trễ và lỗi đo lường. Tệ hơn nữa, dữ liệu thực dễ bị vô hiệu hóa bởi các thay đổi cấu hình thông thường, khiến việc thu thập đủ dữ liệu để có ích trở nên khó khăn. Khi các phương pháp của chúng tôi phát triển, lỗi chỉ mô phỏng của chúng tôi đã được cải thiện cho đến khi nó khớp với lỗi của chúng tôi khi sử dụng hỗn hợp dữ liệu mô phỏng và dữ liệu thực. Các mô hình thị giác cuối cùng của chúng tôi đã được đào tạo mà không có dữ liệu thực.

Dự án này hoàn thành một chu kỳ phát triển AI đầy đủ mà OpenAI đã theo đuổi trong hai năm qua: chúng tôi đã phát triển một thuật toán học tập mới , mở rộng quy mô để giải quyết các nhiệm vụ mô phỏng khó và sau đó áp dụng hệ thống kết quả vào thế giới thực. Lặp lại chu kỳ này ở quy mô ngày càng tăng là lộ trình chính mà chúng tôi đang theo đuổi để tăng khả năng của các hệ thống AI ngày nay hướng tới trí tuệ nhân tạo tổng quát an toàn. Nếu bạn muốn trở thành một phần của những gì sắp tới, chúng tôi đang tuyển dụng !

Tài khoản ChatGPT 4 chính hãng giá rẻ tại đây!

Họ tên (*)	Số điện thoại (*)
Email (*)	Dịch vụ