.png)
Giả thuyết của chúng tôi là sự hiểu biết ngôn ngữ thực sự sẽ đến từ các tác nhân học từ kết hợp với cách chúng tác động đến thế giới, thay vì phát hiện ra các mẫu trong một khối văn bản khổng lồ. Bước đầu tiên, chúng tôi muốn xem liệu các tác nhân hợp tác có thể phát triển một ngôn ngữ đơn giản giữa chúng hay không.
Đào tạo các tác nhân để phát minh ra một ngôn ngữ
Chúng tôi vừa công bố kết quả ban đầu trong đó chúng tôi dạy các tác nhân AI tạo ra ngôn ngữ bằng cách thả chúng vào một tập hợp các thế giới đơn giản, trao cho chúng khả năng giao tiếp, sau đó giao cho chúng các mục tiêu có thể đạt được tốt nhất bằng cách giao tiếp với các tác nhân khác. Nếu chúng đạt được mục tiêu, thì chúng sẽ được thưởng. Chúng tôi đào tạo chúng bằng cách sử dụng học tăng cường và, nhờ thiết kế thử nghiệm cẩn thận, chúng phát triển một ngôn ngữ chung để giúp chúng đạt được mục tiêu của mình.
Cách tiếp cận của chúng tôi tạo ra các tác nhân phát minh ra một ngôn ngữ (đơn giản!) có cơ sở và thành phần. Grounded có nghĩa là các từ trong một ngôn ngữ được gắn với một cái gì đó mà người nói trực tiếp trải nghiệm trong môi trường của họ, ví dụ, người nói hình thành mối liên hệ giữa từ "cây" và hình ảnh hoặc trải nghiệm về cây cối. Compositional có nghĩa là người nói có thể ghép nhiều từ thành một câu để biểu thị một ý tưởng cụ thể, chẳng hạn như yêu cầu một tác nhân khác đến một địa điểm cụ thể.
Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ
Để huấn luyện các tác nhân, chúng tôi biểu diễn thí nghiệm như một bài toán học tăng cường đa tác nhân hợp tác—thay vì cạnh tranh. Các tác nhân tồn tại trong một thế giới hai chiều với các điểm mốc đơn giản và mỗi tác nhân có một mục tiêu. Mục tiêu có thể thay đổi từ việc nhìn vào hoặc di chuyển đến một vị trí cụ thể, đến việc khuyến khích một tác nhân riêng biệt di chuyển đến một vị trí. Mỗi tác nhân có thể phát thông điệp đến nhóm. Phần thưởng của mỗi tác nhân là tổng số phần thưởng được trả cho tất cả các tác nhân, khuyến khích sự hợp tác.
At each time step, our RL agents can take two kinds of actions—(i) environment actions, like moving around or looking at things, and (ii) communication actions, like broadcasting a word to all other agents. (Note that though the agents come up with words that we found to correspond to objects and other agents, as well as actions like “Look at” or “Go to,” to the agents these words are abstract symbols represented by one-hot vector—chúng tôi dán nhãn các vectơ one-hot này bằng các từ tiếng Anh để nắm bắt ý nghĩa của chúng vì mục đích diễn giải.) Trước khi một tác nhân thực hiện một hành động, nó sẽ quan sát các thông tin liên lạc từ các tác nhân khác từ bước thời gian trước đó cũng như vị trí của tất cả các thực thể và đối tượng trên thế giới. Nó lưu trữ thông tin liên lạc đó trong một mạng nơ-ron hồi quy riêng tư, cung cấp cho nó bộ nhớ về các từ mà nó nghe được.
.png)
Chúng tôi sử dụng các hành động giao tiếp rời rạc (các thông điệp được tạo thành từ các ký hiệu giống như từ riêng biệt) được gửi qua một kênh giao tiếp có thể phân biệt được. Một kênh giao tiếp có thể phân biệt được nếu nó cho phép các tác nhân thông báo trực tiếp cho nhau về thông điệp mà họ nên gửi tại mỗi bước thời gian, bằng cách thay đổi một chút thông điệp của họ để tạo ra sự thay đổi tích cực trong phần thưởng mà cả hai tác nhân đều mong đợi nhận được. Các tác nhân thực hiện điều này bằng cách tính toán độ dốc của phần thưởng trong tương lai liên quan đến những thay đổi trong các thông điệp đã gửi (tức là, phần thưởng sẽ thay đổi bao nhiêu với các thông điệp khác nhau). Ví dụ, nếu một tác nhân nhận ra rằng nó có thể thực hiện một nhiệm vụ tốt hơn nếu một tác nhân thứ hai đã gửi thông tin khác, tác nhân đầu tiên có thể cho tác nhân thứ hai biết chính xác cách sửa đổi thông điệp của mình để làm cho chúng hữu ích nhất có thể. Nói cách khác, các tác nhân đặt câu hỏi: 'tôi nên sửa đổi đầu ra giao tiếp của mình như thế nào để có được phần thưởng cộng đồng nhất trong tương lai?'.
Những nỗ lực trước đây đã đạt được loại giao tiếp có thể phân biệt này bằng cách yêu cầu các tác nhân gửi một vectơ số thực hoặc một phép xấp xỉ liên tục với các giá trị nhị phân với nhau, hoặc sử dụng giao tiếp không thể phân biệt được và đào tạo. Chúng tôi sử dụng Gumbel-Softmax mẹo, để ước lượng các quyết định giao tiếp rời rạc với một biểu diễn liên tục trong quá trình đào tạo. Điều này giúp chúng ta có được điều tốt nhất của cả hai thế giới: trong quá trình đào tạo, kênh có thể phân biệt có nghĩa là các tác nhân có thể nhanh chóng học cách giao tiếp với nhau thông qua việc sử dụng biểu diễn liên tục, khi kết thúc quá trình đào tạo, cuối cùng sẽ hội tụ thành các đầu ra rời rạc dễ diễn giải hơn và thể hiện các đặc điểm như tính hợp thành.
Trong video sau đây, chúng tôi sẽ trình bày cách các tác nhân của mình phát triển ngôn ngữ để phù hợp với sự phức tạp của tình huống, trong đó các tác nhân đơn độc không cần phải giao tiếp, hai tác nhân phát minh ra các cụm từ một từ để phối hợp với nhau trong các nhiệm vụ đơn giản và ba tác nhân tạo ra nhiều từ thành câu để hoàn thành các nhiệm vụ đầy thử thách hơn.
Thiết lập thử nghiệm ảnh hưởng đến sự phát triển của ngôn ngữ như thế nào
Mọi dự án nghiên cứu đều có sự phức tạp ; trong trường hợp này, các tác nhân của chúng tôi thường phát minh ra các ngôn ngữ không thể hiện các đặc điểm cấu thành mà chúng tôi mong muốn. Và ngay cả khi họ thành công, các giải pháp của họ vẫn có những đặc điểm riêng.
Vấn đề đầu tiên chúng tôi gặp phải là xu hướng của các tác nhân là tạo ra một lời nói duy nhất và xen kẽ nó với các khoảng trắng để tạo ra ý nghĩa. Ngôn ngữ mã Morse này khó giải mã và không có cấu trúc. Để khắc phục điều này, chúng tôi áp dụng một chi phí nhỏ cho mỗi lời nói và thêm một sở thích là hoàn thành nhiệm vụ một cách nhanh chóng. Điều này khuyến khích các tác nhân sử dụng kênh giao tiếp của họ một cách ngắn gọn, dẫn đến sự phát triển của một vốn từ vựng lớn hơn.
Một vấn đề khác mà chúng tôi gặp phải là các tác nhân cố gắng sử dụng các từ đơn lẻ để mã hóa ý nghĩa của toàn bộ câu. Điều này xảy ra khi chúng tôi cung cấp cho chúng khả năng sử dụng các từ vựng lớn; cuối cùng chúng sẽ tạo ra một câu nói duy nhất mã hóa ý nghĩa của toàn bộ câu như "tác nhân đỏ, hãy đến mốc xanh". Mặc dù hữu ích cho các tác nhân, nhưng cách tiếp cận này yêu cầu kích thước từ vựng tăng theo cấp số nhân với độ dài câu và không phù hợp với mục tiêu rộng hơn của chúng tôi là tạo ra AI có thể diễn giải được đối với con người.) Để ngăn cản các tác nhân tạo ra loại ngôn ngữ này, chúng tôi đã kết hợp sở thích về kích thước từ vựng nhỏ gọn thông qua sở thích sử dụng các từ đã phổ biến, lấy cảm hứng từ các ý tưởng được nêu trong Sự tiến hóa của giao tiếp cú pháp(mở trong cửa sổ mới). Chúng tôi kết hợp điều này bằng cách đưa ra phần thưởng cho việc nói một từ cụ thể tỷ lệ thuận với tần suất từ đó được nói trước đó.
Cuối cùng, chúng tôi gặp phải các tác nhân phát minh ra các tham chiếu mốc không dựa trên màu sắc, mà dựa trên các tín hiệu khác như các mối quan hệ không gian. Ví dụ, các tác nhân sẽ phát minh ra các từ như mốc "trên cùng" hoặc "ngoài cùng bên trái" để chỉ các vị trí dựa trên hệ tọa độ 2D toàn cầu. Mặc dù hành vi như vậy rất sáng tạo, nhưng nó khá cụ thể đối với việc triển khai môi trường cụ thể của chúng tôi và có thể gây ra vấn đề nếu chúng tôi thay đổi đáng kể địa lý của thế giới mà các tác nhân sinh sống. Để khắc phục điều này, chúng tôi đặt các tác nhân vào một khung tọa độ lấy bản ngã làm trung tâm (do đó không có khung tọa độ chung duy nhất nào). Điều này liên quan đến các hướng kỳ lạ và dẫn đến việc chúng tham chiếu đến các mốc theo thuộc tính màu sắc của chúng.
Không nói được? Để tôi chỉ đường. Không nghe được? Để tôi hướng dẫn bạn.
Phương pháp đào tạo này cũng hiệu quả khi các tác nhân không thể giao tiếp với nhau qua văn bản và thay vào đó phải thực hiện các hành động vật lý trong môi trường mô phỏng. Trong các hình ảnh động sau, chúng tôi cho thấy các tác nhân ứng biến theo cách này bằng cách chỉ hoặc hướng dẫn các tác nhân khác đến mục tiêu hoặc trong trường hợp cực đoan là đẩy các tác nhân mù đến mục tiêu của họ.
Ngôn ngữ suy luận và ngôn ngữ căn bản
Ngày nay, nhiều người đã áp dụng máy học vào các nhiệm vụ liên quan đến ngôn ngữ và đạt được thành công lớn. Các kỹ thuật ML quy mô lớn đã dẫn đến những tiến bộ đáng kể trong dịch thuật, lý luận bằng lời nói, hiểu ngôn ngữ, tạo câu và các lĩnh vực khác. Tất cả các phương pháp này đều hoạt động bằng cách cung cấp cho chúng một lượng dữ liệu văn bản cực lớn, từ đó các hệ thống trích xuất các tính năng và khám phá các mẫu. Mặc dù công trình này đã tạo ra nhiều phát minh và cải tiến, nhưng nó có những hạn chế liên quan đến chất lượng biểu diễn của ngôn ngữ được học. Không có nhiều dấu hiệu cho thấy nếu bạn đào tạo máy tính về ngôn ngữ theo cách này, nó sẽ hiểu sâu sắc về cách ngôn ngữ đó gắn liền với thế giới thực. Với nghiên cứu của mình, chúng tôi đang cố gắng giải quyết vấn đề cơ bản này bằng cách đào tạo các tác nhân của mình để phát minh ra ngôn ngữ gắn liền với nhận thức của chúng về thế giới.
Máy tính có mô hình ngôn ngữ được đào tạo mà không có cơ sở rất giống với nhân vật bị mắc kẹt trong Phòng Trung Quốc của John Searle(mở trong cửa sổ mới), nơi họ so sánh văn bản đến với một loại từ điển về ý nghĩa ngữ nghĩa được tạo ra thông qua việc phân tích một lượng lớn văn bản. Không rõ những máy tính này có bao nhiêu ý tưởng về nội dung văn bản đại diện, vì chúng chưa bao giờ rời khỏi căn phòng này và có thể tương tác với thế giới mà văn bản mô tả.
Các bước tiếp theo
Chúng tôi hy vọng rằng nghiên cứu này về việc phát triển ngôn ngữ sẽ cho phép chúng ta phát triển các máy móc có ngôn ngữ riêng gắn liền với trải nghiệm sống của chúng. Chúng tôi nghĩ rằng nếu chúng ta từ từ tăng độ phức tạp của môi trường của chúng và phạm vi hành động mà chính các tác nhân được phép thực hiện, thì có thể chúng sẽ tạo ra một ngôn ngữ biểu cảm chứa các khái niệm vượt ra ngoài các động từ và danh từ cơ bản đã phát triển ở đây.
- Trong tay tài khoản ChatGPT 4 với nhiều ưu đãi đặc biệt
Khi độ phức tạp của ngôn ngữ được phát minh này tăng lên, chúng ta sẽ gặp khó khăn trong việc làm cho những ngôn ngữ này có thể được con người hiểu được. Đó là lý do tại sao đối với dự án tiếp theo của chúng tôi, Ryan Lowe và Igor Mordatch sẽ nghiên cứu các cách kết nối các ngôn ngữ được phát minh với tiếng Anh thông qua việc để các tác nhân giao tiếp với các tác nhân nói tiếng Anh. Điều này sẽ tự động dịch ngôn ngữ của họ sang ngôn ngữ của chúng tôi. Đây là một dự án liên ngành, bao gồm các lĩnh vực AI, ngôn ngữ học và khoa học nhận thức, và như một phần của dự án, chúng tôi sẽ hợp tác với các nhà nghiên cứu tại UC Berkeley.
Để biết thêm thông tin
Bạn có thể tìm hiểu thêm thông tin về các chi tiết kỹ thuật của nghiên cứu của chúng tôi trong bài báo nghiên cứu này: Sự xuất hiện của ngôn ngữ sáng tác có cơ sở trong các quần thể đa tác nhân và nhiều hơn nữa về động lực cho nó trong: Một mô hình cho việc học ngôn ngữ theo mục tiêu và theo tình huống.

Cách đổi Mật khẩu Chat GPT - Hướng dẫn đổi Pass Chat GPT 100% Thành công
Hướng dẫn Cách đăng nhập Chat GPT Nhanh nhất | Có hỗ trợ Miễn phí qua Teamview-Ultraview
Chat GPT Plus là gì? So sánh Chat GPT Plus với Chat GPT Miễn phí
Chat GPT bị giới hạn giải thích vì sao và cách khắc phục
Chat GPT là gì ? Cách đăng Ký Chat GPT Miễn Phí tại Việt Nam