.png)
Chúng tôi đang đề xuất một kỹ thuật an toàn AI được gọi là khuếch đại lặp lại cho phép chúng tôi chỉ định các hành vi và mục tiêu phức tạp vượt quá quy mô của con người, bằng cách chứng minh cách phân tích một nhiệm vụ thành các nhiệm vụ con đơn giản hơn, thay vì cung cấp dữ liệu được gắn nhãn hoặc hàm phần thưởng. Mặc dù ý tưởng này đang ở giai đoạn đầu và chúng tôi chỉ hoàn thành các thử nghiệm trên các miền thuật toán đồ chơi đơn giản, chúng tôi quyết định trình bày nó ở trạng thái sơ bộ vì chúng tôi nghĩ rằng nó có thể chứng minh là một cách tiếp cận có thể mở rộng quy mô đối với an toàn AI.
Nếu chúng ta muốn đào tạo một hệ thống ML để thực hiện một nhiệm vụ, chúng ta cần một tín hiệu đào tạo—một cách để đánh giá mức độ hiệu quả của nó nhằm giúp nó học. Ví dụ, các nhãn trong học có giám sát hoặc phần thưởng trong học tăng cường là các tín hiệu đào tạo. Hình thức của ML thường cho rằng tín hiệu đào tạo đã có sẵn và tập trung vào việc học từ tín hiệu đó, nhưng trên thực tế, tín hiệu đào tạo phải đến từ đâu đó. Nếu chúng ta không có tín hiệu đào tạo, chúng ta không thể học nhiệm vụ và nếu chúng ta có tín hiệu đào tạo sai, chúng ta có thể nhận được tín hiệu không mong muốn và đôi khi hành vi nguy hiểm. Do đó, việc cải thiện khả năng tạo tín hiệu đào tạo sẽ rất có giá trị cho cả việc học các nhiệm vụ mới và sự an toàn của AI.
Xem thêm: trong tay tài khoản ChatGPT Plus chính hãng giá rẻ chỉ với vài bước đơn giản
Hiện tại chúng ta tạo ra tín hiệu đào tạo như thế nào? Đôi khi, mục tiêu chúng ta muốn có thể được đánh giá theo thuật toán, như đếm điểm trong trò chơi Cờ vây hoặc kiểm tra xem một tập hợp số đã được sắp xếp thành công hay chưa (bảng bên trái của hình bên dưới). Hầu hết các tác vụ trong thế giới thực không phù hợp với tín hiệu đào tạo thuật toán, nhưng thường thì chúng ta có thể thay vào đó có được tín hiệu đào tạo bằng cách để con người thực hiện cái nhiệm vụ (ví dụ, dán nhãn một tập huấn luyện hoặc trình bày một nhiệm vụ RL), hoặc đánh giá một AI của hiệu suất thực hiện nhiệm vụ (bảng giữa của hình bên dưới). Tuy nhiên, nhiều nhiệm vụ phức tạp đến mức con người không thể đánh giá hoặc thực hiện chúng—ví dụ có thể là thiết kế một hệ thống giao thông phức tạp hoặc quản lý mọi chi tiết về bảo mật của một mạng máy tính lớn (bảng bên phải của hình bên dưới).
.png)
Khuếch đại lặp lại là một phương pháp tạo tín hiệu đào tạo cho các loại tác vụ sau, theo một số giả định nhất định. Cụ thể, mặc dù con người không thể thực hiện hoặc đánh giá toàn bộ tác vụ trực tiếp, chúng tôi cho rằng con người có thể, khi được giao một phần tác vụ, xác định rõ ràng các thành phần nhỏ hơn tạo nên tác vụ đó. Ví dụ, trong ví dụ về máy tính được kết nối mạng, con người có thể chia nhỏ "bảo vệ một tập hợp các máy chủ và bộ định tuyến" thành "xem xét các cuộc tấn công vào máy chủ", "xem xét các cuộc tấn công vào bộ định tuyến" và "xem xét cách hai cuộc tấn công trước đó có thể tương tác". Ngoài ra, chúng tôi cho rằng con người có thể thực hiện các trường hợp rất nhỏ của tác vụ, ví dụ "xác định xem một dòng cụ thể trong tệp nhật ký có đáng ngờ không". Nếu hai điều này đúng, thì chúng ta có thể xây dựng tín hiệu đào tạo cho các tác vụ lớn từ các tín hiệu đào tạo của con người cho các tác vụ nhỏ, sử dụng con người để phối hợp lắp ráp chúng.
Trong quá trình triển khai khuếch đại, chúng tôi bắt đầu bằng cách lấy mẫu các nhiệm vụ phụ nhỏ và đào tạo hệ thống AI để thực hiện chúng bằng cách yêu cầu con người (những người có thể thực hiện các nhiệm vụ nhỏ này) trình diễn. Sau đó, chúng tôi bắt đầu lấy mẫu các nhiệm vụ lớn hơn một chút, giải quyết chúng bằng cách yêu cầu con người chia chúng thành các phần nhỏ, mà các hệ thống AI được đào tạo từ bước trước đó hiện có thể giải quyết. Chúng tôi sử dụng các giải pháp cho các nhiệm vụ khó hơn một chút này, thu được với sự trợ giúp của con người, như một tín hiệu đào tạo để đào tạo các hệ thống AI giải quyết các nhiệm vụ cấp độ thứ hai này trực tiếp (không cần sự trợ giúp của con người). Sau đó, chúng tôi tiếp tục tổng hợp các nhiệm vụ, lặp đi lặp lại xây dựng một tín hiệu đào tạo trong quá trình thực hiện. Nếu quy trình này hoạt động, kết quả cuối cùng là một hệ thống hoàn toàn tự động có thể giải quyết các nhiệm vụ tổng hợp cao mặc dù bắt đầu mà không có tín hiệu đào tạo trực tiếp cho các nhiệm vụ đó. Quy trình này có phần giống với quá trình lặp lại của chuyên gia (phương pháp được sử dụng trong AlphaGo Zero), ngoại trừ việc lặp lại của chuyên gia củng cố tín hiệu đào tạo hiện có, trong khi khuếch đại lặp lại xây dựng tín hiệu đào tạo từ đầu. Nó cũng có các tính năng chung với một số gần đây thuật toán học tập sử dụng phương pháp phân tích vấn đề tức thời để giải quyết vấn đề tại thời điểm kiểm tra, nhưng khác ở chỗ nó hoạt động trong các cài đặt không có tín hiệu đào tạo trước.
Thí nghiệm
Tương tự như công trình trước đây của chúng tôi về an toàn AI thông qua tranh luận , làm việc trực tiếp trên các nhiệm vụ vượt quá quy mô con người là quá khó đối với một dự án nguyên mẫu. Ngoài ra, việc sử dụng một con người thực sự làm tín hiệu đào tạo sẽ gây ra nhiều phức tạp, vì vậy chúng tôi vẫn chưa thực hiện điều này (mặc dù chúng tôi có kế hoạch thực hiện trong tương lai). Đối với các thí nghiệm đầu tiên của mình, thay vào đó, chúng tôi cố gắng khuếch đại tín hiệu đào tạo thuật toán để chứng minh rằng khuếch đại lặp lại có thể hoạt động trong bối cảnh đơn giản này. Chúng tôi cũng giới hạn sự chú ý của mình vào việc học có giám sát (không giống như công trình trước đây của chúng tôi về tín hiệu đào tạo con người trong RL ). Chúng tôi đã thử phương pháp này trên năm nhiệm vụ thuật toán đồ chơi. Các nhiệm vụ này có các giải pháp thuật toán trực tiếp mà chúng tôi giả vờ không biết (ví dụ: tìm đường đi ngắn nhất giữa hai điểm trên đồ thị). Các vấn đề cũng có thể được giải quyết bằng cách ghép lại các suy luận một bước nhỏ (ví dụ: kết hợp hai đường dẫn để tạo thành một đường dẫn dài hơn), nhưng sẽ mất rất nhiều công sức để ghép mọi thứ lại với nhau theo cách thủ công. Chúng tôi sử dụng khuếch đại lặp để học thuật toán trực tiếp bằng cách chỉ sử dụng các phần làm tín hiệu đào tạo, do đó mô phỏng tình huống mà con người biết cách kết hợp các phần nhỏ của một giải pháp nhưng không thể cung cấp tín hiệu đào tạo trực tiếp.
Trong mỗi một trong năm nhiệm vụ này (cung cấp năng lượng hoán vị, gán tuần tự, tìm kiếm ký tự đại diện, đường đi ngắn nhất và tìm hợp), chúng ta có thể thực hiện cạnh tranh chỉ bằng cách học trực tiếp nhiệm vụ thông qua học có giám sát, mặc dù bị hạn chế do không có tín hiệu đào tạo trực tiếp (mục tiêu ở đây là khớp học có giám sát với ít thông tin hơn, không phải vượt trội hơn).
Sự khuếch đại có những đặc điểm chung với công trình trước đây của chúng tôi về an toàn AI thông qua tranh luận . Giống như tranh luận, nó tìm cách đào tạo các nhiệm vụ vượt quá khả năng thực hiện hoặc đánh giá trực tiếp của con người, thông qua một quá trình lặp đi lặp lại cho phép con người cung cấp sự giám sát gián tiếp - tuy nhiên cách tiếp cận cụ thể thì khác. Nó cũng xây dựng dựa trên công trình của chúng tôi về phản hồi của con người, bằng cách triển khai hệ thống dự đoán phần thưởng và các phiên bản sau của nó có khả năng bao gồm phản hồi từ con người thực sự. Cho đến nay, chúng tôi đã khám phá tất cả các phương pháp này theo cách sơ bộ và hiện đang nghiên cứu mở rộng chúng để giải quyết các vấn đề thú vị và thực tế hơn.
- Tài khoản ChatGPT 4 với vô vàn ưu đãi hấp dẫn!

Cách đổi Mật khẩu Chat GPT - Hướng dẫn đổi Pass Chat GPT 100% Thành công
Hướng dẫn Cách đăng nhập Chat GPT Nhanh nhất | Có hỗ trợ Miễn phí qua Teamview-Ultraview
Chat GPT Plus là gì? So sánh Chat GPT Plus với Chat GPT Miễn phí
Chat GPT bị giới hạn giải thích vì sao và cách khắc phục
Chat GPT là gì ? Cách đăng Ký Chat GPT Miễn Phí tại Việt Nam