0326 239 199
Chat ngay

Học chơi Minecraft với Video PreTraining

Chúng tôi đã đào tạo một mạng nơ-ron để chơi Minecraft bằng Video PreTraining (VPT) trên một tập dữ liệu video khổng lồ không có nhãn về cách chơi Minecraft của con người, trong khi chỉ sử dụng một lượng nhỏ dữ liệu nhà thầu có nhãn. Với tinh chỉnh, mô hình của chúng tôi có thể học cách chế tạo các công cụ kim cương, một nhiệm vụ thường mất hơn 20 phút của con người thành thạo (24.000 hành động). Mô hình của chúng tôi sử dụng giao diện người dùng gốc của các lần nhấn phím và di chuyển chuột, khiến nó trở nên khá tổng quát và đại diện cho một bước tiến tới các tác nhân sử dụng máy tính nói chung.

Internet chứa một lượng lớn các video công khai mà chúng ta có thể học hỏi. Bạn có thể xem một người thực hiện một bài thuyết trình tuyệt đẹp, một họa sĩ kỹ thuật số vẽ một cảnh hoàng hôn tuyệt đẹp và một người chơi Minecraft xây dựng một ngôi nhà phức tạp. Tuy nhiên, những video này chỉ cung cấp bản ghi về  những gì  đã xảy ra chứ không phải chính xác  cách  thực hiện, tức là bạn sẽ không biết trình tự chính xác của các chuyển động chuột và các phím được nhấn. Nếu chúng ta muốn xây dựng  các mô hình nền móng quy mô lớn(mở trong cửa sổ mới) trong những miền này như chúng tôi đã làm trong ngôn ngữ với GPT (mở trong cửa sổ mới), việc thiếu nhãn hành động này đặt ra một thách thức mới không có trong lĩnh vực ngôn ngữ, nơi mà “nhãn hành động” chỉ đơn giản là những từ tiếp theo trong một câu.

Để tận dụng khối lượng dữ liệu video chưa được gắn nhãn có sẵn trên internet, chúng tôi giới thiệu một phương pháp học mô phỏng bán giám sát mới lạ nhưng đơn giản: Video PreTraining (VPT). Chúng tôi bắt đầu bằng cách thu thập một tập dữ liệu nhỏ từ các nhà thầu, trong đó chúng tôi ghi lại không chỉ video của họ mà còn cả các hành động họ thực hiện, trong trường hợp của chúng tôi là các lần nhấn phím và di chuyển chuột. Với dữ liệu này, chúng tôi đào tạo một mô hình động lực học ngược (IDM), mô hình này dự đoán hành động được thực hiện ở mỗi bước trong video. Điều quan trọng là IDM có thể sử dụng thông tin trong quá khứ  và tương lai  để đoán hành động ở mỗi bước. Nhiệm vụ này dễ hơn nhiều và do đó đòi hỏi ít dữ liệu hơn nhiều so với nhiệm vụ sao chép hành vi là dự đoán các hành động chỉ dựa trên  các khung video trong quá khứ , nhiệm vụ này đòi hỏi phải suy ra người đó muốn làm gì và cách thực hiện. Sau đó, chúng tôi có thể sử dụng IDM đã được đào tạo để gắn nhãn cho một tập dữ liệu lớn hơn nhiều gồm các video trực tuyến và học cách hành động thông qua sao chép hành vi.

Kết quả VPT zero-shot

Chúng tôi đã chọn xác thực phương pháp của mình trong Minecraft vì nó (1) là một trong những trò chơi điện tử được chơi tích cực nhất trên thế giới và do đó có rất nhiều dữ liệu video có sẵn miễn phí và (2) là trò chơi mở với nhiều hoạt động đa dạng, tương tự như các ứng dụng trong thế giới thực như sử dụng máy tính. Không giống như  trước đây (mở trong cửa sổ mới) tác phẩm (mở trong cửa sổ mới) trong Minecraft sử dụng không gian hành động đơn giản hóa nhằm mục đích giúp việc khám phá dễ dàng hơn, AI của chúng tôi sử dụng giao diện gốc của con người có tính ứng dụng rộng rãi hơn nhưng cũng khó hơn nhiều: tốc độ khung hình 20Hz với chuột và bàn phím.

Được đào tạo trên 70.000 giờ video trực tuyến được gắn nhãn IDM, mô hình nhân bản hành vi của chúng tôi (mô hình nền tảng VPT) thực hiện các nhiệm vụ trong Minecraft gần như không thể đạt được bằng cách học tăng cường từ đầu. Nó học cách chặt cây để thu thập gỗ, chế tạo những khúc gỗ đó thành ván, rồi chế tạo những tấm ván đó thành bàn chế tạo; trình tự này mất khoảng 50 giây hoặc 1.000 hành động chơi game liên tiếp của một người thành thạo Minecraft.

Ngoài ra, mô hình thực hiện các kỹ năng phức tạp khác mà con người thường làm trong trò chơi, chẳng hạn như bơi lội, săn bắt động vật để kiếm thức ăn và ăn thức ăn đó. Nó cũng học được kỹ năng "nhảy trụ", một hành vi phổ biến trong Minecraft là nâng mình lên bằng cách nhảy liên tục và đặt một khối bên dưới mình.

Tinh chỉnh bằng cách sao chép hành vi

Các mô hình nền tảng được thiết kế để có hồ sơ hành vi rộng và thường có khả năng thực hiện nhiều nhiệm vụ khác nhau. Để kết hợp kiến ​​thức mới hoặc cho phép chúng chuyên về phân phối nhiệm vụ hẹp hơn, thông lệ chung là tinh chỉnh các mô hình này thành các tập dữ liệu nhỏ hơn, cụ thể hơn. Là một nghiên cứu điển hình về mức độ tinh chỉnh mô hình nền tảng VPT thành các tập dữ liệu hạ lưu, chúng tôi đã yêu cầu các nhà thầu của mình chơi trong 10 phút trong các thế giới Minecraft hoàn toàn mới và xây dựng một ngôi nhà từ các vật liệu Minecraft cơ bản. Chúng tôi hy vọng rằng điều này sẽ khuếch đại khả năng thực hiện đáng tin cậy các kỹ năng "đầu trò chơi" của mô hình nền tảng như xây dựng bàn chế tạo. Khi tinh chỉnh tập dữ liệu này, chúng tôi không chỉ thấy sự cải thiện đáng kể trong việc thực hiện đáng tin cậy các kỹ năng đầu trò chơi đã có trong mô hình nền tảng mà mô hình tinh chỉnh còn học cách đi sâu hơn vào cây công nghệ bằng cách chế tạo cả công cụ bằng gỗ và đá. Đôi khi chúng tôi thậm chí còn thấy một số công trình xây dựng nơi trú ẩn thô sơ và đặc vụ tìm kiếm trong các ngôi làng, bao gồm cả việc đột kích rương.

 

Mở rộng dữ liệu

Có lẽ giả thuyết quan trọng nhất trong công trình của chúng tôi là sử dụng dữ liệu nhà thầu được gắn nhãn để đào tạo IDM (như một phần của đường ống VPT) hiệu quả hơn nhiều so với việc đào tạo trực tiếp mô hình nền móng BC từ cùng một tập dữ liệu nhà thầu nhỏ đó. Để xác thực giả thuyết này, chúng tôi đào tạo các mô hình nền móng trên lượng dữ liệu tăng dần từ 1 đến 70.000 giờ. Những mô hình được đào tạo trên dữ liệu dưới 2.000 giờ được đào tạo trên dữ liệu nhà thầu với nhãn thực tế ban đầu được thu thập để đào tạo IDM và những mô hình được đào tạo trên dữ liệu hơn 2.000 giờ được đào tạo trên dữ liệu internet được gắn nhãn bằng IDM của chúng tôi. Sau đó, chúng tôi lấy từng mô hình nền móng và tinh chỉnh nó thành tập dữ liệu xây dựng nhà được mô tả trong phần trước.

Ảnh hưởng của dữ liệu đào tạo mô hình nền tảng đến việc tinh chỉnh

Khi dữ liệu mô hình nền tảng tăng lên, chúng ta thường thấy khả năng chế tạo tăng lên và chỉ ở quy mô dữ liệu lớn nhất, chúng ta mới thấy sự xuất hiện của việc chế tạo công cụ bằng đá.

Tinh chỉnh với học tăng cường

Khi có thể chỉ định một hàm phần thưởng, học tăng cường (RL) có thể là một phương pháp mạnh mẽ để tạo ra hiệu suất cao, thậm chí có khả năng là siêu phàm. Tuy nhiên, nhiều nhiệm vụ đòi hỏi phải vượt qua những thách thức khám phá khó khăn và hầu hết các phương pháp RL giải quyết những thách thức này bằng các  tiên nghiệm khám phá ngẫu nhiên  , ví dụ các mô hình thường được khuyến khích hành động ngẫu nhiên thông qua phần thưởng entropy. Mô hình VPT sẽ là một tiên nghiệm tốt hơn nhiều đối với RL vì việc mô phỏng hành vi của con người có thể hữu ích hơn nhiều so với việc thực hiện các hành động ngẫu nhiên. Chúng tôi đặt cho mô hình của mình nhiệm vụ đầy thử thách là thu thập một chiếc cuốc kim cương, một khả năng chưa từng có trong Minecraft trở nên khó khăn hơn khi sử dụng giao diện con người gốc.

Việc chế tạo một chiếc cuốc kim cương đòi hỏi một chuỗi nhiệm vụ phụ dài và phức tạp. Để nhiệm vụ này dễ thực hiện, chúng tôi thưởng cho các tác nhân cho mỗi mục trong chuỗi.

Chúng tôi thấy rằng một chính sách RL được đào tạo từ một khởi tạo ngẫu nhiên (phương pháp RL chuẩn) hầu như không đạt được bất kỳ phần thưởng nào, không bao giờ học cách thu thập gỗ và chỉ hiếm khi thu thập gậy. Ngược lại hoàn toàn, tinh chỉnh từ mô hình VPT không chỉ học cách chế tạo cuốc kim cương (mà nó thực hiện trong 2,5% các tập Minecraft dài 10 phút), mà thậm chí còn có tỷ lệ thành công ở cấp độ con người trong việc thu thập tất cả các vật phẩm dẫn đến cuốc kim cương. Đây là lần đầu tiên có người chỉ ra một tác nhân máy tính có khả năng chế tạo các công cụ kim cương trong Minecraft, việc này mất trung bình hơn 20 phút (24.000 hành động) của con người.

Phần thưởng qua các tập phim

 

Phần kết luận

VPT mở đường cho phép các tác nhân  học cách hành động  bằng cách xem số lượng lớn video trên internet. So với mô hình video tạo sinh hoặc các phương pháp tương phản chỉ tạo ra  các tiên nghiệm biểu diễn, VPT cung cấp khả năng thú vị là học trực tiếp  các tiên nghiệm hành vi quy mô lớn  trong nhiều lĩnh vực hơn là chỉ ngôn ngữ. Mặc dù chúng tôi chỉ thử nghiệm trong Minecraft, trò chơi này rất mở và giao diện người dùng gốc (chuột và bàn phím) rất chung chung, vì vậy chúng tôi tin rằng kết quả của chúng tôi sẽ tốt cho các lĩnh vực tương tự khác, ví dụ như sử dụng máy tính.

Để biết thêm thông tin, vui lòng xem  bài báo của chúng tôi (mở trong cửa sổ mới). Chúng tôi cũng đang mở nguồn dữ liệu nhà thầu, môi trường Minecraft, mã mô hình và trọng số mô hình, chúng tôi hy vọng sẽ hỗ trợ nghiên cứu trong tương lai về VPT. Hơn nữa, chúng tôi đã hợp tác với cuộc thi MineRL NeurIPS năm nay. Người tham gia có thể sử dụng và tinh chỉnh các mô hình của chúng tôi để cố gắng giải quyết nhiều nhiệm vụ khó khăn trong Minecraft. Những người quan tâm có thể xem  trang web cuộc thi (mở trong cửa sổ mới) và cạnh tranh để giành giải thưởng lớn trị giá 100.000 đô la ngoài giải thưởng thông thường là 20.000 đô la. Các khoản tài trợ dành cho các nhóm và cá nhân tự nhận mình là thiểu số.

Xem thêm: mua tài khoản ChatGPT 4 chính hãng giá rẻ

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !