zalo
Chat ngay

Học các khái niệm với hàm năng lượng

Chúng tôi đã phát triển một  mô hình dựa trên năng lượng có thể nhanh chóng học cách xác định và tạo ra các trường hợp của các khái niệm, chẳng hạn như gần, trên, giữa, gần nhất và xa nhất, được thể hiện dưới dạng các tập hợp các điểm 2 chiều. Mô hình của chúng tôi học các khái niệm này chỉ sau năm lần trình diễn. Chúng tôi cũng trình bày sự chuyển giao giữa các miền: chúng tôi sử dụng các khái niệm đã học trong môi trường hạt 2 chiều để giải quyết các nhiệm vụ trên một robot dựa trên vật lý 3 chiều.

Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ!

Nhiều đặc điểm của trí thông minh con người, chẳng hạn như khái quát hóa từ kinh nghiệm hạn chế, lập luận trừu tượng và lập kế hoạch, lập luận tương tự, giải quyết vấn đề sáng tạo và khả năng ngôn ngữ đòi hỏi khả năng hợp nhất kinh nghiệm thành, đóng vai trò là các khối xây dựng cơ bản của sự hiểu biết và lập luận. Kỹ thuật của chúng tôi cho phép các tác nhân học và trích xuất các khái niệm từ các nhiệm vụ, sau đó sử dụng các khái niệm này để giải quyết các nhiệm vụ khác trong nhiều lĩnh vực khác nhau. Ví dụ, mô hình của chúng tôi có thể sử dụng các khái niệm đã học trong môi trường hạt hai chiều để thực hiện cùng một nhiệm vụ trên môi trường rô bốt dựa trên vật lý ba chiều— mà không cần đào tạo lại trong môi trường mới.

Công trình này sử dụng các hàm năng lượng để cho phép các tác nhân của chúng ta học cách phân loại và tạo ra  các khái niệm đơn giản, mà chúng có thể sử dụng để giải quyết các nhiệm vụ như điều hướng giữa hai điểm trong các môi trường không giống nhau. Các ví dụ về các khái niệm bao gồm thị giác ("đỏ" hoặc "hình vuông"), không gian ("bên trong", "trên cùng"), thời gian ("chậm", "sau"), xã hội ("hung hăng", "hữu ích") trong số những khái niệm khác. Những khái niệm này, sau khi học được, hoạt động như các khối xây dựng cơ bản cho sự hiểu biết và lý luận của tác nhân, như được thể hiện trong nghiên cứu khác từ  DeepMind (mở trong cửa sổ mới) và  Vicarious (mở trong cửa sổ mới).

Các hàm năng lượng hoạt động bằng cách mã hóa  sở thích  về các trạng thái của thế giới, cho phép một tác nhân có các hành động khả dụng khác nhau (thay đổi mô-men xoắn so với thay đổi vị trí trực tiếp) học một chính sách có hiệu quả trong các bối cảnh khác nhau—điều này có thể hiểu nôm na là phát triển sự hiểu biết khái niệm về những điều đơn giản.

Nó hoạt động như thế nào

Để tạo ra hàm năng lượng, chúng tôi biểu diễn các khái niệm về mặt toán học dưới dạng  mô hình năng lượng (mở trong cửa sổ mới). Ý tưởng về mô hình năng lượng bắt nguồn từ vật lý, với trực giác rằng các sự kiện và trạng thái quan sát được đại diện cho cấu hình năng lượng thấp.

Chúng tôi định nghĩa hàm năng lượng E(x, a, w) cho mỗi khái niệm theo:

+ Trạng thái của thế giới mà mô hình quan sát

+ Mặt nạ chú ý (mở trong cửa sổ mới) (a) đối với các thực thể trong tiểu bang đó.

+ Một vectơ có giá trị liên tục (w), được sử dụng như điều kiện, chỉ định khái niệm mà năng lượng đang được tính toán

Các trạng thái của thế giới bao gồm các tập hợp các thực thể và các thuộc tính cũng như vị trí của chúng (như các chấm bên dưới, có cả thuộc tính về vị trí và màu sắc). Mặt nạ chú ý, được sử dụng để "nhận dạng", biểu thị sự tập trung của mô hình vào một tập hợp các thực thể nào đó. Mô hình năng lượng đưa ra một số dương duy nhất cho biết khái niệm có được thỏa mãn (khi năng lượng bằng không) hay không (khi năng lượng cao). Một khái niệm được thỏa mãn khi mặt nạ chú ý tập trung vào một tập hợp các thực thể biểu thị một khái niệm, điều này yêu cầu cả các thực thể phải ở đúng vị trí (sửa đổi x hoặc tạo) và các thực thể đúng đang được tập trung vào (sửa đổi a hoặc nhận dạng).

Chúng tôi xây dựng hàm năng lượng như một mạng nơ-ron dựa trên  kiến ​​trúc mạng quan hệ (mở trong cửa sổ mới), cho phép nó lấy một số lượng thực thể tùy ý làm đầu vào. Các tham số của hàm năng lượng này là những gì đang được tối ưu hóa bởi quy trình đào tạo của chúng tôi; các hàm khác được suy ra ngầm định từ hàm năng lượng.

Cách tiếp cận này cho phép chúng ta sử dụng các hàm năng lượng để học một mạng duy nhất có thể thực hiện  cả quá trình tạo và nhận dạng . Điều này cho phép chúng ta sử dụng chéo các khái niệm đã học từ quá trình tạo đến quá trình nhận dạng và ngược lại. (Lưu ý: Hiệu ứng này đã được quan sát thấy ở động vật thông qua  các tế bào thần kinh phản chiếu (mở trong cửa sổ mới).)

Đào tạo mạng đơn

Dữ liệu đào tạo của chúng tôi bao gồm các quỹ đạo của (mặt nạ chú ý, trạng thái), mà chúng tôi tạo ra trước thời hạn cho các khái niệm cụ thể mà chúng tôi muốn mô hình của mình học. Chúng tôi đào tạo mô hình của mình bằng cách cung cấp cho nó một tập hợp các bản trình diễn (thường là 5) cho một tập hợp khái niệm nhất định, sau đó cung cấp cho nó một môi trường mới (X0) và yêu cầu nó dự đoán trạng thái tiếp theo (X1) và mặt nạ chú ý tiếp theo (a). Chúng tôi tối ưu hóa hàm năng lượng sao cho trạng thái tiếp theo và mặt nạ chú ý tiếp theo được tìm thấy trong dữ liệu đào tạo được gán các giá trị năng lượng thấp. Tương tự như các mô hình tạo sinh như bộ mã hóa tự động biến thiên(mở trong cửa sổ mới), mô hình được khuyến khích học các giá trị có thể nén hữu ích các khía cạnh của nhiệm vụ. Chúng tôi đã đào tạo mô hình của mình bằng nhiều khái niệm liên quan đến các mối quan hệ trực quan, không gian, gần và thời gian, cũng như định lượng trong môi trường hạt hai chiều.

Kết quả chính

Chúng tôi đã đánh giá cách tiếp cận của mình thông qua một loạt các nhiệm vụ được thiết kế để xem hệ thống duy nhất của chúng tôi có thể học cách xác định và tạo ra những thứ thống nhất bởi cùng một khái niệm tốt như thế nào; hệ thống của chúng tôi có thể học cách phân loại và tạo ra các tập hợp cụ thể các mối quan hệ không gian hoặc có thể điều hướng các thực thể qua một cảnh theo một cách cụ thể hoặc có thể phát triển các phán đoán tốt cho các khái niệm như số lượng (một, hai, ba hoặc nhiều hơn ba) hoặc khoảng cách.

Các mô hình hoạt động tốt hơn khi chúng có thể chia sẻ kinh nghiệm giữa việc học để tạo ra các khái niệm (bằng cách di chuyển các thực thể trong vectơ trạng thái x) và xác định chúng (bằng cách thay đổi mặt nạ chú ý trên một vectơ trạng thái cố định): khi chúng tôi đánh giá các mô hình được đào tạo trên  cả hai  hoạt động này, chúng hoạt động  tốt hơn  trên mỗi hoạt động riêng lẻ so với các mô hình chỉ được đào tạo trên một hoạt động riêng lẻ đó. Chúng tôi cũng phát hiện ra các dấu hiệu của  việc học chuyển giao (mở trong cửa sổ mới)—một hàm năng lượng chỉ được đào tạo trên bối cảnh nhận dạng sẽ hoạt động tốt khi tạo ra, ngay cả khi không được đào tạo rõ ràng để làm như vậy.

Các bước tiếp theo

Trong tương lai, chúng tôi rất háo hức được khám phá nhiều khái niệm đa dạng hơn được học trong môi trường ba chiều phong phú hơn, tích hợp các khái niệm với chính sách ra quyết định của các tác nhân của chúng tôi (cho đến nay chúng tôi chỉ xem xét các khái niệm như những thứ được học từ kinh nghiệm thụ động) và khám phá các kết nối giữa các khái niệm và sự hiểu biết ngôn ngữ. 

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !