Chúng tôi đã quan sát thấy các tác nhân khám phá ra cách sử dụng công cụ ngày càng phức tạp hơn khi chơi trò trốn tìm đơn giản. Thông qua quá trình đào tạo trong môi trường trốn tìm mô phỏng mới của chúng tôi, các tác nhân xây dựng một loạt sáu chiến lược và phản chiến lược riêng biệt, một số trong đó chúng tôi không biết môi trường của mình hỗ trợ. Sự phức tạp mới nổi tự giám sát trong môi trường đơn giản này cho thấy rằng sự đồng thích nghi của nhiều tác nhân một ngày nào đó có thể tạo ra hành vi cực kỳ phức tạp và thông minh.
Trong môi trường của chúng tôi, các tác nhân chơi trò chơi trốn tìm theo nhóm. Người trốn (màu xanh) có nhiệm vụ tránh tầm nhìn của người tìm (màu đỏ), và người tìm có nhiệm vụ giữ tầm nhìn của người trốn. Có những vật thể nằm rải rác khắp môi trường mà người trốn và người tìm có thể lấy và khóa tại chỗ, cũng như các căn phòng và bức tường bất động được tạo ngẫu nhiên mà các tác nhân phải học cách điều hướng. Trước khi trò chơi bắt đầu, người trốn được cho một giai đoạn chuẩn bị, trong đó người tìm bị bất động để người trốn có cơ hội chạy trốn hoặc thay đổi môi trường của họ.
- Tài khoản ChatGTP 4 tại đây với nhiều ưu đãi hấp dẫn!
Không có động cơ rõ ràng nào để các tác nhân tương tác với các vật thể trong môi trường; sự giám sát duy nhất được đưa ra là thông qua mục tiêu trốn tìm. Các tác nhân được trao phần thưởng theo nhóm; những người trốn được trao phần thưởng +1 nếu tất cả những người trốn đều trốn và -1 nếu bất kỳ người trốn nào bị người tìm nhìn thấy. Những người tìm được trao phần thưởng ngược lại, -1 nếu tất cả những người trốn đều trốn và +1 nếu không. Để hạn chế hành vi của tác nhân trong một không gian hợp lý, các tác nhân sẽ bị phạt nếu họ đi quá xa khỏi khu vực chơi. Trong giai đoạn chuẩn bị, tất cả các tác nhân đều không được trao phần thưởng nào.
Chương trình tự học và hành vi mới nổi
Khi các tác nhân luyện tập với nhau trong trò trốn tìm, có tới sáu chiến lược riêng biệt xuất hiện. Mỗi chiến lược mới tạo ra áp lực trước đây không tồn tại để các tác nhân tiến tới giai đoạn tiếp theo. Lưu ý rằng không có động lực trực tiếp nào để các tác nhân tương tác với các đối tượng hoặc khám phá; thay vào đó, các chiến lược mới xuất hiện được hiển thị bên dưới là kết quả của chương trình tự học(mở trong cửa sổ mới) được tạo ra bởi sự cạnh tranh giữa nhiều tác nhân và động lực đơn giản của trò trốn tìm.
Đào tạo điệp viên trốn tìm
Chúng tôi sử dụng cùng cơ sở hạ tầng đào tạo và thuật toán được sử dụng để đào tạo OpenAI Five và Dactyl . Tuy nhiên, trong môi trường của chúng tôi, mỗi tác nhân hoạt động độc lập, sử dụng các quan sát và trạng thái bộ nhớ ẩn của riêng mình. Các tác nhân sử dụng biểu diễn thế giới dựa trên trạng thái tập trung vào thực thể, không thay đổi hoán vị đối với các đối tượng và các tác nhân khác.
Mỗi đối tượng được nhúng và sau đó được đưa qua một khối tự chú ý còn sót lại được che giấu, tương tự như những khối được sử dụng trong máy biến áp (mở trong cửa sổ mới), trong đó sự chú ý tập trung vào các vật thể thay vì theo thời gian. Các vật thể không nằm trong tầm nhìn và ở phía trước của tác nhân sẽ bị che khuất để tác nhân không có thông tin về chúng.
.png)
Chính sách của tác nhân được đào tạo với self-play và Proximal Policy Optimization . Trong quá trình tối ưu hóa, các tác nhân có thể sử dụng thông tin đặc quyền về các đối tượng bị che khuất và các tác nhân khác trong hàm giá trị của chúng.
Chúng tôi thấy rằng đào tạo quy mô lớn là rất quan trọng đối với các tác nhân tiến triển qua các giai đoạn khác nhau của sự xuất hiện. Dưới đây, chúng tôi hiển thị cả thời gian và số lượng các tập mà các tác nhân cần để đạt đến giai đoạn 4 (phòng thủ dốc) cho các kích thước lô khác nhau. Chúng tôi thấy rằng việc tăng kích thước lô giúp tăng tốc đáng kể thời gian hội tụ theo đồng hồ treo tường, mặc dù không ảnh hưởng nhiều đến hiệu quả mẫu ở hoặc trên 32k. Tuy nhiên, chúng tôi thấy rằng các kích thước lô 8k và 16k không bao giờ đạt đến giai đoạn 4 trong số lượng tập được phân bổ.
Cạnh tranh giữa nhiều tác nhân so với động lực nội tại
Trong công trình này, chúng tôi đưa ra bằng chứng cho thấy các tác nhân học các chiến lược phức tạp và phản chiến lược thông qua chương trình tự học tự giám sát trong trò chơi trốn tìm. Một phương pháp khác để học các kỹ năng theo cách không giám sát là động lực nội tại , động lực này khuyến khích các tác nhân khám phá bằng nhiều số liệu khác nhau như lỗi mô hình hoặc số lượng trạng thái. Chúng tôi đã chạy khám phá dựa trên số lượng trong môi trường của mình, trong đó các tác nhân giữ số lượng rõ ràng các trạng thái mà chúng đã truy cập và được khuyến khích đến các trạng thái ít được truy cập. Lựa chọn mô hình chính để điều chỉnh trong cài đặt này là biểu diễn trạng thái; ví dụ, trong đường cơ sở đầu tiên của chúng tôi, chúng tôi chỉ bao gồm các vị trí hộp 2 chiều trong trạng thái, sao cho các tác nhân chỉ được khuyến khích tương tác và di chuyển các hộp đến các vị trí mới. Sau đó, chúng tôi so sánh điều này với chính sách dựa trên số lượng, chính sách này lấy toàn bộ trạng thái được cung cấp cho các tác nhân chơi trò trốn tìm.
Như có thể thấy, các tác nhân được đào tạo về trốn tìm tập trung định tính vào nhiều hành vi có thể diễn giải được của con người hơn như xây dựng nơi trú ẩn, trong khi các tác nhân được đào tạo với động lực nội tại di chuyển các vật thể xung quanh theo cách dường như không có định hướng. Hơn nữa, khi không gian trạng thái tăng độ phức tạp, chúng tôi thấy rằng các phương pháp động lực nội tại có ít tương tác có ý nghĩa hơn với các vật thể trong môi trường của chúng. Vì lý do này, chúng tôi tin rằng sự cạnh tranh giữa nhiều tác nhân sẽ là một phương pháp có khả năng mở rộng hơn để tạo ra các kỹ năng liên quan đến con người theo cách không được giám sát khi môi trường tiếp tục tăng về kích thước và độ phức tạp.
Chuyển giao và tinh chỉnh như đánh giá
Trong phần trước, chúng ta so sánh định tính các hành vi học được trong trò trốn tìm với các hành vi học được với động lực nội tại. Tuy nhiên, khi môi trường tăng về quy mô, thì độ khó trong việc đo lường định tính tiến trình cũng tăng theo. Theo dõi phần thưởng là một thước đo đánh giá không đủ trong các bối cảnh có nhiều tác nhân, vì nó có thể mơ hồ trong việc chỉ ra liệu các tác nhân đang cải thiện đồng đều hay đã trì trệ. Các thước đo như ELO hoặc Trueskill có thể đo lường đáng tin cậy hơn liệu hiệu suất có được cải thiện so với các phiên bản chính sách trước đó hoặc các chính sách khác trong một quần thể hay không; tuy nhiên, các thước đo này vẫn không cung cấp thông tin chi tiết về việc liệu hiệu suất được cải thiện là do các điều chỉnh mới hay do cải thiện các kỹ năng đã học trước đó. Cuối cùng, việc sử dụng số liệu thống kê cụ thể về môi trường như chuyển động của vật thể cũng có thể mơ hồ (ví dụ: lựa chọn theo dõi chuyển động tuyệt đối không làm sáng tỏ hướng mà các tác nhân di chuyển) và việc thiết kế các thước đo đủ sẽ trở nên khó khăn và tốn kém khi môi trường mở rộng.
Chúng tôi đề xuất sử dụng một bộ các bài kiểm tra trí thông minh theo miền cụ thể nhắm vào các khả năng mà chúng tôi tin rằng các tác nhân cuối cùng có thể đạt được. Hiệu suất chuyển giao trong các cài đặt này có thể hoạt động như một thước đo định lượng về chất lượng hoặc kỹ năng biểu diễn và chúng tôi so sánh với quá trình đào tạo trước với khám phá dựa trên số lượng cũng như đường cơ sở được đào tạo từ đầu.
Mặc dù tác nhân trốn tìm thực hiện tốt hơn nhiều nhiệm vụ chuyển giao, nhưng nó không cải thiện đáng kể hiệu suất hoặc thời gian hội tụ. Khi xem hành vi của nó, chúng ta biết nó có kỹ năng tiềm ẩn để di chuyển các vật thể theo cách chính xác để xây dựng nơi trú ẩn trong trò chơi trốn tìm; tuy nhiên, nó không có khả năng sử dụng kỹ năng này trong các bối cảnh khác khi được đào tạo với số lượng mẫu thấp.
Chúng tôi tin rằng nguyên nhân dẫn đến kết quả chuyển giao hỗn hợp bắt nguồn từ việc các tác nhân học các biểu diễn kỹ năng bị rối rắm và khó tinh chỉnh. Khi các môi trường trong tương lai trở nên đa dạng hơn và các tác nhân phải sử dụng các kỹ năng trong nhiều bối cảnh hơn, chúng tôi tin rằng chúng ta sẽ thấy nhiều biểu diễn kỹ năng có thể khái quát hóa hơn và tín hiệu quan trọng hơn trong phương pháp đánh giá này. Chúng tôi cũng mở nguồn các nhiệm vụ đánh giá như một cách để đánh giá tiến trình học tập trong môi trường của chúng tôi.
Hành vi đáng ngạc nhiên
Chúng tôi đã chứng minh rằng các tác nhân có thể học cách sử dụng công cụ tinh vi trong một trình mô phỏng vật lý có độ trung thực cao; tuy nhiên, có rất nhiều bài học kinh nghiệm trong quá trình đi đến kết quả này. Việc xây dựng môi trường không hề dễ dàng và thường thì các tác nhân tìm ra cách khai thác môi trường bạn xây dựng hoặc công cụ vật lý theo cách không mong muốn.
Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ