Vũ trụ

Lĩnh vực trí tuệ nhân tạo đã chứng kiến sự tiến bộ nhanh chóng trong vài năm qua. Máy tính hiện có thể nhìn thấy, nghe và dịch ngôn ngữ với độ chính xác chưa từng có. Họ cũng đang học cách tạo ra hình ảnh , âm thanh và văn bản. Một hệ thống học tăng cường, AlphaGo, đã đánh bại nhà vô địch thế giới ở môn Cờ vây. Tuy nhiên, bất chấp tất cả những tiến bộ này, các hệ thống chúng ta đang xây dựng vẫn rơi vào danh mục “AI hẹp”—chúng có thể đạt được hiệu suất siêu phàm trong một lĩnh vực cụ thể, nhưng lại không có khả năng làm bất cứ điều gì hợp lý bên ngoài lĩnh vực đó. Ví dụ, AlphaGo có thể dễ dàng đánh bại bạn ở môn Cờ vây, nhưng bạn không thể giải thích các quy tắc của một trò chơi cờ bàn khác cho nó và mong đợi nó chơi cùng bạn.

Các hệ thống có khả năng giải quyết vấn đề chung—một thứ gì đó tương tự như ý thức chung của con người, cho phép một tác nhân nhanh chóng giải quyết một nhiệm vụ khó mới—vẫn nằm ngoài tầm với. Một thách thức rõ ràng là các tác nhân của chúng ta không mang theo kinh nghiệm của họ đến với các nhiệm vụ mới. Trong một chế độ đào tạo tiêu chuẩn, chúng ta khởi tạo các tác nhân từ đầu và để chúng giật mình ngẫu nhiên qua hàng chục triệu lần thử nghiệm khi chúng học cách lặp lại các hành động tình cờ dẫn đến kết quả có giá trị. Nếu chúng ta muốn đạt được tiến bộ hướng tới các tác nhân thông minh nói chung, chúng ta phải cho phép chúng trải nghiệm một loạt các nhiệm vụ rộng lớn để chúng có thể phát triển kiến thức thế giới và các chiến lược giải quyết vấn đề có thể được tái sử dụng hiệu quả trong một nhiệm vụ mới.

Universe phơi bày nhiều môi trường khác nhau thông qua một giao diện chung: tác nhân vận hành máy tính để bàn từ xa bằng cách quan sát các điểm ảnh trên màn hình và tạo ra các lệnh bàn phím và chuột. Môi trường phơi bày máy chủ VNC và universe thư viện biến tác nhân thành máy khách VNC.

Mục tiêu thiết kế của chúng tôi cho universe là hỗ trợ một tiến trình Python duy nhất điều khiển 20 môi trường song song với tốc độ 60 khung hình/giây. Mỗi bộ đệm màn hình là 1024x768, do đó, việc đọc từng khung hình từ một tiến trình bên ngoài một cách ngây thơ sẽ chiếm 3GB/giây băng thông bộ nhớ. Chúng tôi đã viết một máy khách VNC theo định hướng hàng loạt trong Go, được tải dưới dạng thư viện dùng chung trong Python và cập nhật gia tăng một cặp bộ đệm cho mỗi môi trường. Sau khi thử nghiệm nhiều kết hợp máy chủ VNC, mã hóa và các tùy chọn giao thức không có tài liệu, hiện chúng tôi thường xuyên điều khiển hàng chục môi trường ở tốc độ 60 khung hình mỗi giây với độ trễ 100ms—hầu hết là do mã hóa phía máy chủ.

Sau đây là một số thuộc tính quan trọng của bản triển khai hiện tại của chúng tôi:

Tổng quát . Một tác nhân có thể sử dụng giao diện này (ban đầu được thiết kế cho con người) để tương tác với bất kỳ chương trình máy tính hiện có nào mà không cần trình giả lập hoặc quyền truy cập vào nội bộ của chương trình. Ví dụ, nó có thể chơi bất kỳ trò chơi máy tính nào, tương tác với thiết bị đầu cuối, duyệt web, thiết kế tòa nhà trong phần mềm CAD, vận hành chương trình chỉnh sửa ảnh hoặc chỉnh sửa bảng tính.

Quen thuộc với con người . Vì con người đã thành thạo với giao diện pixel/bàn phím/chuột, nên con người có thể dễ dàng vận hành bất kỳ môi trường nào của chúng ta. Chúng ta có thể sử dụng hiệu suất của con người làm cơ sở có ý nghĩa và ghi lại các cuộc trình diễn của con người chỉ bằng cách lưu lưu lượng VNC. Chúng tôi thấy các cuộc trình diễn cực kỳ hữu ích trong việc khởi tạo các tác nhân có chính sách hợp lý với việc sao chép hành vi (tức là sử dụng học có giám sát để bắt chước những gì con người làm), trước khi chuyển sang RL để tối ưu hóa cho hàm phần thưởng đã cho.

VNC là một tiêu chuẩn . Nhiều triển khai của VNC có sẵn trực tuyến và một số được đóng gói theo mặc định vào các hệ điều hành phổ biến nhất, bao gồm OSX. Thậm chí còn có các triển khai VNC trong JavaScript(mở trong cửa sổ mới), cho phép con người thực hiện các cuộc trình diễn mà không cần cài đặt bất kỳ phần mềm mới nào—điều quan trọng đối với các dịch vụ như Amazon Mechanical Turk.

Dễ dàng gỡ lỗi . Chúng ta có thể quan sát tác nhân của mình trong khi nó đang được đào tạo hoặc đánh giá—chúng ta chỉ cần đính kèm một máy khách VNC vào máy tính để bàn VNC (chia sẻ) của môi trường. Chúng ta cũng có thể lưu lưu lượng VNC để phân tích trong tương lai.

Tất cả chúng tôi đều khá ngạc nhiên khi chúng tôi có thể khiến VNC hoạt động tốt như vậy. Khi chúng tôi mở rộng quy mô sang các trò chơi lớn hơn, có khả năng chúng tôi sẽ bắt đầu sử dụng các công nghệ phụ trợ bổ sung. Nhưng các dấu hiệu ban đầu cho thấy chúng tôi có thể đẩy xa việc triển khai hiện tại: với các thiết lập phù hợp, máy khách của chúng tôi có thể thuyết phục GTA V chạy ở tốc độ 20 khung hình/giây trên internet công cộng.

Môi trường

Chúng tôi đã tích hợp một số lượng lớn môi trường vào Universe và xem đây chỉ là sự khởi đầu. Mỗi môi trường được đóng gói dưới dạng hình ảnh Docker và lưu trữ hai máy chủ giao tiếp với thế giới bên ngoài: máy chủ VNC gửi pixel và nhận lệnh bàn phím/chuột, và máy chủ WebSocket gửi tín hiệu phần thưởng cho các tác vụ học tăng cường (cũng như bất kỳ thông tin phụ trợ nào như văn bản hoặc chẩn đoán) và chấp nhận các thông báo điều khiển (chẳng hạn như ID môi trường cụ thể để chạy).

Trò chơi Atari

Universe bao gồm các trò chơi Atari 2600 từ Arcade Learning Environment. Các môi trường này hiện chạy không đồng bộ bên trong quay.io/openai/universe.gym-core Docker image và cho phép tác nhân kết nối qua mạng, nghĩa là tác nhân phải xử lý độ trễ và tốc độ khung hình thấp. Khi chạy qua mạng cục bộ trên đám mây, chúng ta thường thấy 60 khung hình mỗi giây, độ trễ quan sát là 20ms và độ trễ hành động là 10ms; qua internet công cộng, con số này giảm xuống còn 20 khung hình mỗi giây, độ trễ quan sát là 80ms và độ trễ hành động là 30ms.

Trò chơi Flash

Chúng tôi chuyển sang các trò chơi Flash như một điểm khởi đầu để mở rộng Vũ trụ—chúng rất phổ biến trên Internet, thường có đồ họa phong phú hơn Atari, nhưng vẫn đơn giản. Cho đến nay, chúng tôi đã sàng lọc hơn 30.000 trò chơi và ước tính có nhiều hơn một bậc độ lớn.

Tài khoản ChatGPT 4 với nhiều ưu đãi đặc biệt hấp dẫn!

Bản phát hành Universe ban đầu của chúng tôi bao gồm 1.000 trò chơi Flash (100 trò chơi có chức năng thưởng), chúng tôi phân phối tại quay.io/openai/universe.flashgames Hình ảnh Docker với sự đồng ý của chủ sở hữu bản quyền. Hình ảnh này bắt đầu một TigerVNC máy chủ và khởi động máy chủ điều khiển Python, sử dụng Selenium để mở trình duyệt Chrome đến trang có chứa trò chơi mong muốn và tự động nhấp vào bất kỳ menu nào cần thiết để bắt đầu trò chơi.

Trích xuất phần thưởng . Trong khi môi trường không có hàm phần thưởng có thể được sử dụng cho việc học không giám sát hoặc để tạo ra các cuộc biểu tình của con người, RL cần một hàm phần thưởng. Không giống như các trò chơi Atari, chúng ta không thể chỉ đọc tiêu chí thành công từ bộ nhớ quy trình, vì có quá nhiều sự khác biệt trong cách mỗi trò chơi lưu trữ thông tin này. May mắn thay, nhiều trò chơi có điểm số trên màn hình mà chúng ta có thể sử dụng làm hàm phần thưởng, miễn là chúng ta có thể phân tích cú pháp. Trong khi OCR có sẵn chẳng hạn như Tesseract hoạt động tốt trên các phông chữ chuẩn có nền sạch, nhưng lại gặp khó khăn với các phông chữ đa dạng, nền chuyển động, hoạt ảnh bắt mắt hoặc các đối tượng che khuất phổ biến trong nhiều trò chơi. Chúng tôi đã phát triển một mô hình OCR dựa trên mạng nơ-ron tích chập chạy bên trong bộ điều khiển Python của vùng chứa Docker, phân tích điểm số (từ bộ đệm màn hình được duy trì thông qua vòng lặp tự VNC) và truyền đạt điểm số đó qua kênh WebSocket đến tác nhân.

Nhiệm vụ trình duyệt

Nhân loại đã cùng nhau xây dựng Internet thành một kho tàng thông tin khổng lồ, được thiết kế để con người có thể tiếp nhận trực quan. Vũ trụ bao gồm các môi trường dựa trên trình duyệt yêu cầu các tác nhân AI phải đọc, điều hướng và sử dụng web giống như con người—sử dụng pixel, bàn phím và chuột.

Ngày nay, các tác nhân của chúng tôi chủ yếu học cách tương tác với các thành phần giao diện người dùng phổ biến như nút, danh sách và thanh trượt, nhưng trong tương lai, họ có thể hoàn thành các tác vụ phức tạp, chẳng hạn như tra cứu những thứ họ không biết trên internet, quản lý email hoặc lịch của bạn, hoàn thành Khan Academy(mở trong cửa sổ mới) bài học, hoặc làm việc trên Amazon Mechanical Turk và CrowdFlower nhiệm vụ.

Mini World of Bits . Đầu tiên, chúng tôi bắt đầu tạo ra một chuẩn mực mới nắm bắt được những thách thức nổi bật của tương tác trình duyệt trong một thiết lập đơn giản. Chúng tôi gọi chuẩn mực này là Mini World of Bits. Chúng tôi nghĩ về nó như một sự tương tự với MNIST và tin rằng việc thành thạo các môi trường này cung cấp tín hiệu có giá trị hướng đến các mô hình và kỹ thuật đào tạo sẽ hoạt động tốt trên các trang web đầy đủ và các tác vụ phức tạp hơn. Điểm chuẩn Mini World of Bits ban đầu của chúng tôi bao gồm 80 môi trường từ đơn giản (ví dụ: nhấp vào một nút cụ thể) đến khó (ví dụ: trả lời liên hệ trong ứng dụng email mô phỏng).

Nhiệm vụ trình duyệt thực tế . Chúng tôi đã bắt đầu làm việc trên các nhiệm vụ trình duyệt thực tế hơn. Tác nhân nhận lệnh và thực hiện một chuỗi hành động trên trang web. Một môi trường như vậy cung cấp cho tác nhân thông tin chi tiết về đặt chuyến bay mong muốn và sau đó yêu cầu tác nhân thao tác giao diện người dùng để tìm kiếm chuyến bay. (Chúng tôi sử dụng các bản ghi được lưu trong bộ nhớ đệm của các trang web này để tránh gửi thư rác hoặc đặt nhiều chuyến bay thực tế.)

Tích hợp trong tương lai

Cơ sở hạ tầng này có mục đích chung: chúng tôi có thể tích hợp bất kỳ trò chơi, trang web hoặc ứng dụng nào có thể chạy trong vùng chứa Docker (thuận tiện nhất) hoặc máy ảo Windows (ít thuận tiện hơn). Chúng tôi muốn sự giúp đỡ của cộng đồng để tiếp tục mở rộng phạm vi của môi trường Universe, bao gồm hoàn thiện việc tích hợp các trò chơi của đối tác , ứng dụng Android (trình giả lập có thể chạy bên trong Docker), fold.it, trò chơi Unity, trò chơi HTML5, trò chơi giáo dục trực tuyến và bất kỳ thứ gì khác mà mọi người nghĩ tới.

Dự án Malmo của Microsoft nhóm sẽ tích hợp với Universe và chúng tôi mong muốn hỗ trợ các khuôn khổ AI khác nữa.

Chạy một môi trường

Mặc dù có sự đa dạng lớn, việc chạy môi trường Universe chỉ cần thiết lập tối thiểu. Bạn chỉ cần cài đặt Docker và vũ trụ:

văn bản thuần túy

1

$ git clone https://github.com/openai/universe && pip install -e universe

We package each collection of similar environments into a “runtime”, which is a server exposing two ports: 5900 (used for the VNC protocol to exchange pixels/keyboard/mouse) and 15900 (used for a WebSocket control protocol). Ví dụ, quay.io/openai/universe.flashgames Docker image là một môi trường chạy có thể phục vụ nhiều môi trường trò chơi Flash khác nhau.

Bắt đầu thời gian chạy . Bạn có thể khởi động thời gian chạy đầu tiên của mình từ bảng điều khiển như sau:

văn bản thuần túy

1234

1

# -p 5900:5900 and -p 15900:15900 expose the VNC and WebSocket ports

2

# --privileged/--cap-add/--ipc=host needed to make Selenium work

3

$ docker run --privileged --cap-add=SYS_ADMIN --ipc=host \

4

-p 5900:5900 -p 15900:15900 quay.io/openai/universe.flashgames

Thao tác này sẽ tải xuống và chạy trình chứa Docker của trò chơi Flash. Bạn có thể xem và điều khiển máy tính từ xa bằng cách kết nối trình xem VNC của riêng bạn với cổng 5900, chẳng hạn như qua TurboVNC hoặc máy khách VNC dựa trên trình duyệt được phục vụ thông qua máy chủ web trên cổng 15900. Mật khẩu mặc định là openai. OSX cũng có trình xem VNC gốc có thể truy cập bằng cách chạy open vnc://localhost:5900 trong Terminal. (Thật không may, trình xem OSX không triển khai mã hóa Tight, đây là tùy chọn tốt nhất cho các trò chơi lớn hơn.)

Viết tác nhân của riêng bạn . Bạn có thể viết tác nhân của riêng bạn khá dễ dàng, bằng cách sử dụng khuôn khổ yêu thích của bạn như TensorFlow hoặc Theano. (Chúng tôi đã cung cấp một tác nhân TensorFlow khởi đầua). Tại mỗi bước thời gian, quan sát của tác nhân bao gồm một mảng pixel NumPy và tác nhân phải phát ra danh sách các sự kiện VNC (hành động chuột/bàn phím). Ví dụ, tác nhân sau sẽ kích hoạt Dusk Drive và liên tục nhấn về phía trước:

văn bản thuần túy

12345678910111213

1

import gym

2

import universe # register Universe environments into Gym

3

4

env = gym.make('flashgames.DuskDrive-v0') # any Universe [environment ID](https://github.com/openai/universe/blob/master/universe/__init__.py#L297) here

5

# If using docker-machine, replace "localhost" with your Docker IP

6

env.configure(remotes="vnc://localhost:5900+15900")

7

observation_n = env.reset()

8

9

while True:

10

# agent which presses the Up arrow 60 times per second

11

action_n = [[('KeyEvent', 'ArrowUp', True)] for _ in observation_n]

12

observation_n, reward_n, done_n, info = env.step(action_n)

13

env.render()

Bạn có thể giữ kết nối VNC của mình luôn mở và xem tác nhân chơi, hoặc thậm chí sử dụng bàn phím và chuột cùng với tác nhân trong chế độ hợp tác giữa người và tác nhân.

Quản lý môi trường . Vì môi trường chạy như các quy trình máy chủ, chúng có thể chạy trên các máy từ xa, có thể trong một cụm hoặc thậm chí qua internet công cộng. Chúng tôi đã ghi lại một số cách để quản lý từ xa thời gian chạy. Tại OpenAI, chúng tôi sử dụng dịch vụ HTTP “phân bổ”, cung cấp thời gian chạy trên Kubernetes cụm theo yêu cầu và chúng ta có thể sử dụng để kết nối một quy trình tác nhân duy nhất với hàng trăm môi trường đồng thời.

Xác thực cơ sở hạ tầng của Vũ trụ

Các tác nhân của Universe phải đối mặt với sự bẩn thỉu của thế giới thực mà các tác nhân RL truyền thống được bảo vệ: các tác nhân phải chạy theo thời gian thực và tính đến hành động dao động và độ trễ quan sát. Mặc dù toàn bộ sự phức tạp của Universe được thiết kế để nằm ngoài tầm với của các kỹ thuật hiện tại, chúng tôi cũng đã đảm bảo rằng có thể đạt được tiến bộ ngay hôm nay.

Universe Pong . Mục tiêu đầu tiên của chúng tôi là giải quyết gym-core.PongDeterministic-v3. Pong là một trong những trò chơi Atari dễ nhất, nhưng nó có khả năng trở nên khó giải quyết như một nhiệm vụ của Universe, vì tác nhân phải học cách thực hiện các thao tác rất chính xác ở tốc độ 4x thời gian thực (vì môi trường sử dụng khung hình chuẩn là 4). Chúng tôi đã sử dụng môi trường này để xác thực rằng độ trễ thay đổi của Universe vẫn cho phép học các phản ứng chính xác và nhanh chóng. Bản phát hành hôm nay bao gồm universe-starter-agent, mất một giờ để luyện tập đạt điểm Pong là +17 trên 21. Con người chơi cùng phiên bản Pong này chỉ có thể đạt điểm -11 trên thang điểm từ -21 đến 21, do tốc độ cao của trò chơi.

Các thí nghiệm bổ sung . Chúng tôi đã áp dụng RL cho một số trò chơi Flash đua xe, hoạt động sau khi áp dụng một số thủ thuật tiêu chuẩn như chuẩn hóa phần thưởng. Một số tác vụ trình duyệt mà chúng tôi thử RL gặp phải các vấn đề khám phá khó khăn, nhưng có thể giải quyết được bằng cách sao chép hành vi từ dữ liệu trình diễn của con người.

Một số tác nhân thành công của chúng tôi được hiển thị bên dưới. Trong khi việc giải quyết Universe sẽ yêu cầu một tác nhân nằm ngoài tầm với của các kỹ thuật hiện tại, các video này cho thấy nhiều môi trường Universe thú vị có thể được tiếp cận một cách hiệu quả bằng các thuật toán hiện nay ..

Đào tạo từ xa . Chúng tôi cũng đã thử nghiệm với slither.iomcác tác nhân trên cơ sở hạ tầng vật lý của chúng tôi (có quyền truy cập vào GPU Titan X) và các môi trường trên đám mây. Nhìn chung, tác nhân sẽ kiểm soát 32 môi trường đồng thời ở tốc độ 5 khung hình mỗi giây—các quan sát có sẵn thường xuyên hơn nhiều, nhưng tốc độ khung hình thấp hơn giúp các thuật toán RL ngày nay, vốn gặp khó khăn với các phụ thuộc qua nhiều bước thời gian.

"Thời gian phản ứng" của tác nhân của chúng tôi trung bình khoảng 150ms trên internet công cộng: 110ms để quan sát đến, 10ms để tính toán hành động và 30ms để hành động có hiệu lực. (Để so sánh, thời gian phản ứng của con người (trung bình khoảng 250ms). Thời gian phản ứng giảm xuống còn 80ms trên mạng cục bộ và 40ms trên một máy duy nhất.

Nhìn về phía trước

Tiến trình nghiên cứu đòi hỏi phải có phép đo hiệu suất có ý nghĩa. Trong những tuần tới, chúng tôi sẽ phát hành chuẩn mực học chuyển giao, cho phép các nhà nghiên cứu xác định xem họ có đang đạt được tiến bộ về khả năng giải quyết vấn đề chung hay không.

Vũ trụ lấy cảm hứng từ lịch sử của ImageNet tập dữ liệu trong cộng đồng Computer Vision. Fei-Fei Li và các cộng sự của bà đã cố tình thiết kế chuẩn ImageNet gần như không thể thực hiện được, nhưng tỷ lệ lỗi đã giảm nhanh chóng từ 28% vào năm 2010 xuống còn 3% vào năm 2016, đạt đến (hoặc trong một số trường hợp thậm chí vượt qua) mức độ của con người hiệu suất.

Nếu cộng đồng AI làm điều tương tự với Universe, thì chúng ta sẽ đạt được tiến bộ thực sự hướng tới các hệ thống có trí thông minh tổng quát, rộng lớn.

Giúp chúng tôi cải thiện Vũ trụ

Universe chỉ có thể thành công khi có sự giúp đỡ của cộng đồng. Có nhiều cách để đóng góp (và một cách đặc biệt tuyệt vời là tham gia cùng chúng tôi ):

Cấp cho chúng tôi quyền sử dụng trò chơi, chương trình, trang web hoặc ứng dụng của bạn.

Nếu chương trình của bạn có thể tạo ra các nhiệm vụ đào tạo tốt cho AI thì chúng tôi rất mong nhận được sự cho phép của bạn(mở trong cửa sổ mới) để đóng gói nó trong Vũ trụ. Các ứng viên tốt có số trên màn hình (như điểm trò chơi) có thể được phân tích như một phần thưởng hoặc các mục tiêu được xác định rõ ràng, có thể là bản địa hoặc do người dùng xác định.

Đào tạo các đặc vụ thực hiện nhiệm vụ vũ trụ.

Những tiến bộ của AI đòi hỏi toàn bộ cộng đồng phải hợp tác và chúng tôi hoan nghênh sự giúp đỡ của cộng đồng trong việc đào tạo các tác nhân trong các nhiệm vụ này. Chúng tôi đã phát hành một tác nhân khởi đầu đây sẽ là điểm khởi đầu hữu ích để xây dựng các tác nhân của riêng bạn. Trong những tuần tới, chúng tôi sẽ phát hành các điểm chuẩn phụ mà chúng tôi cho là nơi phù hợp để bắt đầu.

Tích hợp môi trường mới. (Sắp ra mắt)

Chúng tôi có nhiều môi trường đang chờ được tích hợp hơn là chúng tôi có thể tự xử lý. Trong những tuần tới, chúng tôi sẽ phát hành các công cụ tích hợp môi trường của mình, để bất kỳ ai cũng có thể đóng góp các tích hợp môi trường mới. Trong thời gian chờ đợi, chúng tôi sẽ chạy bản beta dành cho những người tích hợp môi trường.

Đóng góp các cuộc biểu tình. (Sắp có)

Chúng tôi đang biên soạn một tập dữ liệu lớn về các cuộc biểu tình của con người về môi trường Vũ trụ, sẽ được phát hành công khai. Nếu bạn muốn chơi trò chơi vì lợi ích của khoa học, vui lòng đăng ký bản beta của chúng tôi.