.png)
Chúng tôi trình bày một hướng nghiên cứu mới về siêu liên kết, cùng với những kết quả ban đầu đầy hứa hẹn: liệu chúng ta có thể tận dụng các đặc tính tổng quát của học sâu để kiểm soát các mô hình mạnh với các giám sát viên yếu hay không?
Một thách thức cốt lõi đối với việc sắp xếp các hệ thống AI siêu phàm trong tương lai (siêu sắp xếp) là con người sẽ cần phải giám sát các hệ thống AI thông minh hơn nhiều so với chúng. Chúng tôi nghiên cứu một phép loại suy đơn giản: các mô hình nhỏ có thể giám sát các mô hình lớn không? Chúng tôi chỉ ra rằng chúng tôi có thể sử dụng mô hình cấp GPT-2 để đưa ra hầu hết các khả năng của tài khoản ChatGPT-4—gần với hiệu suất cấp GPT-3.5—tổng quát hóa chính xác ngay cả với các vấn đề khó mà mô hình nhỏ đã thất bại. Điều này mở ra một hướng nghiên cứu mới cho phép chúng tôi trực tiếp giải quyết một thách thức cốt lõi là sắp xếp các mô hình siêu phàm trong tương lai trong khi vẫn đạt được tiến bộ thực nghiệm lặp đi lặp lại ngày nay.
Vấn đề siêu căn chỉnh
Chúng tôi tin rằng siêu trí tuệ - AI thông minh hơn con người rất nhiều - có thể được phát triển trong vòng mười năm tới. Tuy nhiên, chúng ta vẫn chưa biết cách điều khiển và kiểm soát đáng tin cậy các hệ thống AI siêu phàm. Giải quyết vấn đề này là điều cần thiết để đảm bảo rằng ngay cả những hệ thống AI tiên tiến nhất trong tương lai vẫn an toàn và có lợi cho nhân loại.
Chúng tôi đã thành lập nhóm Superalignment vào đầu năm nay để giải quyết vấn đề căn chỉnh siêu trí tuệ này. Hôm nay, chúng tôi phát hành bài báo đầu tiên của nhóm, giới thiệu một hướng nghiên cứu mới để căn chỉnh các mô hình siêu phàm theo kinh nghiệm.
Các phương pháp căn chỉnh hiện tại, chẳng hạn như học tăng cường từ phản hồi của con người (RLHF), dựa vào sự giám sát của con người. Tuy nhiên, các hệ thống AI trong tương lai sẽ có khả năng thực hiện các hành vi cực kỳ phức tạp và sáng tạo khiến con người khó có thể giám sát chúng một cách đáng tin cậy. Ví dụ, các mô hình siêu phàm có thể viết hàng triệu dòng mã máy tính mới lạ—và có khả năng nguy hiểm—mà ngay cả những người có chuyên môn cũng rất khó hiểu.
Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ!
So với các mô hình AI siêu phàm, con người sẽ là “người giám sát yếu”. Đây là một thách thức cốt lõi đối với sự liên kết của AGI: làm thế nào những người giám sát yếu có thể tin tưởng và kiểm soát các mô hình mạnh hơn đáng kể?
Thiết lập của chúng tôi
Để giải quyết thách thức cốt lõi này, chúng tôi đề xuất một phép so sánh mà chúng ta có thể nghiên cứu thực nghiệm ngày nay: liệu chúng ta có thể sử dụng một mô hình nhỏ hơn (ít khả năng hơn) để giám sát một mô hình lớn hơn (có khả năng hơn) không?
.png)
Một phép loại suy đơn giản cho siêu căn chỉnh: Trong học máy (ML) truyền thống, con người giám sát các hệ thống AI yếu hơn mình (bên trái). Để căn chỉnh siêu trí tuệ, thay vào đó, con người sẽ cần giám sát các hệ thống AI thông minh hơn mình (ở giữa). Chúng ta không thể trực tiếp nghiên cứu vấn đề này ngày nay, nhưng chúng ta có thể nghiên cứu một phép loại suy đơn giản: các mô hình nhỏ có thể giám sát các mô hình lớn hơn (bên phải) không?
Ngây thơ thay, chúng ta có thể không mong đợi một mô hình mạnh sẽ hoạt động tốt hơn giám sát viên yếu cung cấp tín hiệu đào tạo của nó—nó có thể chỉ học cách bắt chước tất cả các lỗi mà giám sát viên yếu mắc phải. Mặt khác, các mô hình được đào tạo trước mạnh có khả năng thô tuyệt vời—chúng ta không cần phải dạy chúng các nhiệm vụ mới từ đầu, chúng ta chỉ cần khai thác kiến thức tiềm ẩn của chúng. Câu hỏi quan trọng sau đó là: liệu mô hình mạnh có khái quát hóa theo ý định cơ bản của giám sát viên yếu hay không—tận dụng toàn bộ khả năng của nó để giải quyết nhiệm vụ ngay cả đối với các vấn đề khó mà giám sát viên yếu chỉ có thể cung cấp nhãn đào tạo không đầy đủ hoặc có lỗi?
Kết quả của chúng tôi
.png)
Khái quát hóa yếu-mạnh điển hình trên các chuẩn NLP: Chúng tôi sử dụng mô hình cấp GPT-2 làm giám sát yếu để tinh chỉnh GPT-4.
Chúng ta có thể cải thiện đáng kể khả năng khái quát hóa trong nhiều cài đặt. Chúng ta sử dụng một phương pháp đơn giản khuyến khích mô hình mạnh tự tin hơn—bao gồm cả việc tự tin không đồng ý với giám sát viên yếu nếu cần. Khi chúng ta giám sát GPT-4 bằng mô hình cấp GPT-2 sử dụng phương pháp này trên các tác vụ NLP, mô hình kết quả thường hoạt động ở đâu đó giữa GPT-3 và GPT-3.5. Chúng ta có thể khôi phục phần lớn khả năng của GPT-4 chỉ với sự giám sát yếu hơn nhiều.
Phương pháp này là bằng chứng về khái niệm với những hạn chế quan trọng; ví dụ, nó vẫn không hoạt động trên dữ liệu tùy chọn ChatGPT. Tuy nhiên, chúng tôi cũng tìm thấy dấu hiệu của sự sống với các phương pháp tiếp cận khác, chẳng hạn như dừng sớm tối ưu và khởi động từ các mô hình nhỏ đến trung bình đến lớn.
Nhìn chung, kết quả của chúng tôi cho thấy rằng sự giám sát ngây thơ của con người—chẳng hạn như học tăng cường từ phản hồi của con người (RLHF)—có thể không mở rộng được cho các mô hình siêu phàm nếu không có thêm công trình nghiên cứu, nhưng có thể cải thiện đáng kể khả năng khái quát hóa từ yếu sang mạnh.
Cơ hội nghiên cứu
Vẫn còn những sự khác biệt quan trọng giữa thiết lập thực nghiệm hiện tại của chúng ta và vấn đề cuối cùng của việc sắp xếp các mô hình siêu phàm. Ví dụ, các mô hình tương lai có thể dễ dàng bắt chước các lỗi yếu của con người hơn là các mô hình mạnh hiện tại bắt chước các lỗi yếu của mô hình hiện tại, điều này có thể khiến việc khái quát hóa trở nên khó khăn hơn trong tương lai.
Tuy nhiên, chúng tôi tin rằng thiết lập của chúng tôi nắm bắt được một số khó khăn chính trong việc sắp xếp các mô hình siêu phàm trong tương lai, cho phép chúng tôi bắt đầu đạt được tiến bộ thực nghiệm về vấn đề này ngay hôm nay. Có nhiều hướng triển vọng cho công việc trong tương lai, bao gồm sửa chữa các điểm không tương tự trong thiết lập của chúng tôi, phát triển các phương pháp có khả năng mở rộng tốt hơn và thúc đẩy sự hiểu biết khoa học của chúng tôi về thời điểm và cách chúng tôi nên mong đợi sự khái quát hóa yếu-đến-mạnh tốt.
Chúng tôi tin rằng đây là một cơ hội thú vị cho cộng đồng nghiên cứu ML để đạt được tiến bộ trong việc liên kết. Để thúc đẩy nhiều nghiên cứu hơn trong lĩnh vực này,
+ Chúng tôi đang phát hành mã nguồn mở để giúp bạn dễ dàng bắt đầu các thí nghiệm khái quát hóa từ yếu đến mạnh ngay hôm nay.
+ Chúng tôi đang triển khai chương trình tài trợ trị giá 10 triệu đô la cho sinh viên sau đại học, học giả và các nhà nghiên cứu khác để làm việc về sự liên kết AI siêu phàm nói chung. Chúng tôi đặc biệt vui mừng được hỗ trợ nghiên cứu liên quan đến khái quát hóa từ yếu đến mạnh.
Việc tìm ra cách sắp xếp các hệ thống AI siêu phàm trong tương lai để an toàn chưa bao giờ quan trọng hơn thế và giờ đây dễ dàng hơn bao giờ hết để đạt được tiến bộ thực nghiệm về vấn đề này. Chúng tôi rất vui mừng khi thấy các nhà nghiên cứu khám phá ra những đột phá nào.

Cách đổi Mật khẩu Chat GPT - Hướng dẫn đổi Pass Chat GPT 100% Thành công
Hướng dẫn Cách đăng nhập Chat GPT Nhanh nhất | Có hỗ trợ Miễn phí qua Teamview-Ultraview
Chat GPT Plus là gì? So sánh Chat GPT Plus với Chat GPT Miễn phí
Chat GPT bị giới hạn giải thích vì sao và cách khắc phục
Chat GPT là gì ? Cách đăng Ký Chat GPT Miễn Phí tại Việt Nam