zalo
Chat ngay

Cách tiếp cận của chúng tôi đối với nghiên cứu liên kết

Chúng tôi đang cải thiện khả năng học hỏi từ phản hồi của con người và hỗ trợ con người đánh giá AI của hệ thống AI. Mục tiêu của chúng tôi là xây dựng một hệ thống AI đủ liên kết có thể giúp chúng tôi giải quyết mọi vấn đề liên kết khác

Nghiên cứu căn chỉnh của chúng tôi nhằm mục đích làm cho trí tuệ nhân tạo tổng quát (AGI) phù hợp với các giá trị của con người và tuân theo ý định của con người. Chúng tôi áp dụng phương pháp tiếp cận lặp đi lặp lại, theo kinh nghiệm: bằng cách cố gắng căn chỉnh các hệ thống AI có khả năng cao, chúng tôi có thể tìm hiểu điều gì hiệu quả và điều gì không, do đó tinh chỉnh khả năng làm cho các hệ thống AI an toàn hơn và phù hợp hơn. Sử dụng các thí nghiệm khoa học, chúng tôi nghiên cứu cách các kỹ thuật căn chỉnh mở rộng quy mô và nơi chúng sẽ phá vỡ.

Chúng tôi giải quyết các vấn đề liên kết trong cả các hệ thống AI có năng lực nhất của mình cũng như các vấn đề liên kết mà chúng tôi dự kiến ​​sẽ gặp phải trên con đường hướng tới AGI. Mục tiêu chính của chúng tôi là thúc đẩy các ý tưởng liên kết hiện tại đi xa nhất có thể, đồng thời hiểu và ghi chép chính xác cách chúng có thể thành công hoặc tại sao chúng sẽ thất bại. Chúng tôi tin rằng ngay cả khi không có các ý tưởng liên kết mới về cơ bản, chúng tôi vẫn có thể xây dựng các hệ thống AI liên kết đủ để thúc đẩy đáng kể bản thân nghiên cứu liên kết.

AGI không liên kết có thể gây ra rủi ro đáng kể cho nhân loại và việc giải quyết vấn đề căn chỉnh AGI có thể khó khăn đến mức đòi hỏi toàn thể nhân loại phải cùng nhau làm việc. Do đó, chúng tôi cam kết chia sẻ công khai nghiên cứu căn chỉnh của mình khi có thể: Chúng tôi muốn minh bạch về mức độ hiệu quả thực sự của các kỹ thuật căn chỉnh của mình trong thực tế và chúng tôi muốn mọi nhà phát triển AGI sử dụng các kỹ thuật căn chỉnh tốt nhất thế giới.

Ở cấp độ cao, cách tiếp cận của chúng tôi đối với nghiên cứu căn chỉnh tập trung vào việc thiết kế tín hiệu đào tạo có khả năng mở rộng cho các hệ thống AI rất thông minh phù hợp với ý định của con người. Nó có ba trụ cột chính:

+ Đào tạo hệ thống AI bằng phản hồi của con người

+ Đào tạo hệ thống AI để hỗ trợ đánh giá của con người

+ Đào tạo hệ thống AI để thực hiện nghiên cứu căn chỉnh

Việc điều chỉnh các hệ thống AI theo các giá trị của con người cũng đặt ra một loạt các thách thức xã hội kỹ thuật quan trọng khác, chẳng hạn như quyết định những hệ thống này nên được điều chỉnh theo ai. Giải quyết những vấn đề này rất quan trọng để hoàn thành  sứ mệnh của chúng tôi , nhưng chúng tôi không thảo luận về chúng trong bài đăng này.

“Chúng tôi muốn minh bạch về mức độ hiệu quả thực tế của các kỹ thuật căn chỉnh của chúng tôi và chúng tôi muốn mọi nhà phát triển AGI sử dụng các kỹ thuật căn chỉnh tốt nhất thế giới.”

Đào tạo hệ thống AI bằng phản hồi của con người

RL từ phản hồi của con người  là kỹ thuật chính của chúng tôi để sắp xếp các mô hình ngôn ngữ được triển khai của chúng tôi ngày nay. Chúng tôi đào tạo một lớp mô hình được gọi là  InstructGPT được lấy từ các mô hình ngôn ngữ được đào tạo trước như GPT-3. Các mô hình này được đào tạo để tuân theo ý định của con người: cả ý định rõ ràng được đưa ra bởi một hướng dẫn cũng như ý định ngầm định như tính trung thực, công bằng và an toàn.

Kết quả của chúng tôi cho thấy hiện tại có rất nhiều thành quả dễ đạt được trong việc tinh chỉnh tập trung vào căn chỉnh: Con người thích InstructGPT hơn mô hình được đào tạo trước lớn hơn 100 lần, trong khi việc tinh chỉnh của nó tốn <2% chi phí tính toán đào tạo trước của GPT-3 và khoảng 20.000 giờ phản hồi của con người. Chúng tôi hy vọng rằng công trình của chúng tôi sẽ truyền cảm hứng cho những người khác trong ngành tăng cường đầu tư vào việc căn chỉnh các mô hình ngôn ngữ lớn và nâng cao kỳ vọng của người dùng về tính an toàn của các mô hình được triển khai.

Xem thêm: mua tài khoản ChatGPT 4 chính hãng giá rẻ với nhiều ưu đãi đặc biệt!

API ngôn ngữ tự nhiên của chúng tôi  là một môi trường rất hữu ích cho nghiên cứu căn chỉnh của chúng tôi: Nó cung cấp cho chúng tôi một vòng phản hồi phong phú về mức độ hiệu quả của các kỹ thuật căn chỉnh của chúng tôi trong thế giới thực , dựa trên một tập hợp rất đa dạng các tác vụ mà khách hàng của chúng tôi sẵn sàng trả tiền. Trung bình, khách hàng của chúng tôi đã thích sử dụng InstructGPT hơn các mô hình được đào tạo trước của chúng tôi.

Tuy nhiên, các phiên bản InstructGPT ngày nay còn  khá xa mới hoàn toàn phù hợp : đôi khi chúng không tuân theo các hướng dẫn đơn giản, không phải lúc nào cũng trung thực, không từ chối các nhiệm vụ có hại một cách đáng tin cậy và đôi khi đưa ra các phản hồi thiên vị hoặc độc hại. Một số khách hàng thấy phản hồi của InstructGPT kém sáng tạo hơn đáng kể so với các mô hình được đào tạo trước, điều mà chúng tôi chưa nhận ra khi chạy InstructGPT trên các điểm chuẩn có sẵn công khai. Chúng tôi cũng đang nỗ lực phát triển sự hiểu biết khoa học chi tiết hơn về RL từ phản hồi của con người và cách cải thiện chất lượng phản hồi của con người.

Việc căn chỉnh API của chúng tôi dễ hơn nhiều so với việc căn chỉnh AGI vì hầu hết các tác vụ trên API của chúng tôi không quá khó để con người giám sát và các mô hình ngôn ngữ được triển khai của chúng tôi không thông minh hơn con người. Chúng tôi không mong đợi RL từ phản hồi của con người đủ để căn chỉnh AGI, nhưng đó là khối xây dựng cốt lõi cho các đề xuất căn chỉnh có thể mở rộng mà chúng tôi hào hứng nhất, vì vậy, việc hoàn thiện phương pháp luận này là rất có giá trị.

Mô hình đào tạo hỗ trợ đánh giá của con người

RL từ phản hồi của con người có một hạn chế cơ bản: nó giả định rằng con người có thể đánh giá chính xác các nhiệm vụ mà hệ thống AI của chúng ta đang thực hiện. Ngày nay, con người khá giỏi trong việc này, nhưng khi các mô hình trở nên có khả năng hơn, chúng sẽ có thể thực hiện các nhiệm vụ mà con người khó đánh giá hơn nhiều (ví dụ: tìm tất cả các lỗi trong một cơ sở dữ liệu mã lớn hoặc một bài báo khoa học). Các mô hình của chúng ta có thể học cách nói với người đánh giá là con người những gì họ muốn nghe thay vì nói với họ sự thật. Để mở rộng sự liên kết, chúng ta muốn sử dụng các kỹ thuật như  mô hình phần thưởng đệ quy (RRM)(mở trong cửa sổ mới),  tranh luận và  khuếch đại lặp đi lặp lại .

Hiện tại, hướng đi chính của chúng tôi dựa trên RRM: chúng tôi đào tạo các mô hình có thể hỗ trợ con người đánh giá các mô hình của chúng tôi về các nhiệm vụ mà con người không thể đánh giá trực tiếp. Ví dụ:

+ Chúng tôi đã đào tạo một mô hình để  tóm tắt sách . Đánh giá tóm tắt sách mất nhiều thời gian đối với con người nếu họ không quen thuộc với cuốn sách, nhưng mô hình của chúng tôi có thể hỗ trợ đánh giá của con người bằng cách viết tóm tắt chương.

+ Chúng tôi đã đào tạo một mô hình để  hỗ trợ con người đánh giá độ chính xác thực tế  bằng cách duyệt web và cung cấp trích dẫn và liên kết. Đối với các câu hỏi đơn giản, đầu ra của mô hình này đã được ưu tiên hơn so với các phản hồi do con người viết.

+ Chúng tôi đã đào tạo một mô hình để  viết các bình luận quan trọng về đầu ra của chính nó : Trong một nhiệm vụ tóm tắt dựa trên truy vấn, sự hỗ trợ của các bình luận quan trọng làm tăng trung bình 50% các lỗi mà con người tìm thấy trong đầu ra của mô hình. Điều này vẫn đúng ngay cả khi chúng tôi yêu cầu con người viết các bản tóm tắt có vẻ hợp lý nhưng không chính xác.

+ Chúng tôi đang tạo ra một bộ nhiệm vụ mã hóa được chọn để rất khó đánh giá đáng tin cậy đối với con người không được hỗ trợ. Chúng tôi hy vọng sẽ sớm phát hành bộ dữ liệu này.

Các kỹ thuật căn chỉnh của chúng ta cần phải hoạt động ngay cả khi các hệ thống AI của chúng ta đề xuất các giải pháp rất sáng tạo (như nước đi 37 của AlphaGo), do đó chúng tôi đặc biệt quan tâm đến các mô hình đào tạo để hỗ trợ con người phân biệt các giải pháp đúng với các giải pháp gây hiểu lầm hoặc lừa dối. Chúng tôi tin rằng cách tốt nhất để tìm hiểu càng nhiều càng tốt về cách thực hiện đánh giá hỗ trợ AI trong thực tế là xây dựng các trợ lý AI.

Đào tạo hệ thống AI để thực hiện nghiên cứu căn chỉnh

Hiện tại không có giải pháp có thể mở rộng vô thời hạn nào được biết đến cho vấn đề căn chỉnh. Khi AI tiếp tục tiến triển, chúng tôi dự kiến ​​sẽ gặp phải một số vấn đề căn chỉnh mới mà chúng tôi chưa quan sát thấy trong các hệ thống hiện tại. Một số vấn đề này chúng tôi dự đoán ngay bây giờ và một số trong số chúng sẽ hoàn toàn mới.

Chúng tôi tin rằng việc tìm ra một giải pháp có khả năng mở rộng vô hạn có thể rất khó khăn. Thay vào đó, chúng tôi hướng đến một cách tiếp cận thực tế hơn: xây dựng và sắp xếp một hệ thống có thể thực hiện nghiên cứu sắp xếp nhanh hơn và tốt hơn con người.

Khi chúng ta tiến bộ về điều này, các hệ thống AI của chúng ta có thể tiếp quản ngày càng nhiều công việc liên kết của chúng ta và cuối cùng hình thành, triển khai, nghiên cứu và phát triển các kỹ thuật liên kết tốt hơn so với hiện tại. Chúng sẽ làm việc cùng với con người để đảm bảo rằng những người kế nhiệm của chúng sẽ liên kết với con người hơn.

Chúng tôi tin rằng việc đánh giá nghiên cứu căn chỉnh dễ hơn nhiều so với việc tạo ra nó, đặc biệt là khi được hỗ trợ đánh giá. Do đó, các nhà nghiên cứu con người sẽ tập trung nhiều hơn vào việc đánh giá nghiên cứu căn chỉnh do các hệ thống AI thực hiện thay vì tự mình tạo ra nghiên cứu này. Mục tiêu của chúng tôi là đào tạo các mô hình để căn chỉnh sao cho chúng tôi có thể giảm tải hầu hết mọi công việc nhận thức cần thiết cho nghiên cứu căn chỉnh.

Điều quan trọng là chúng ta chỉ cần các hệ thống AI “hẹp hơn” có khả năng ngang bằng con người trong các lĩnh vực có liên quan để thực hiện tốt như con người trong nghiên cứu căn chỉnh. Chúng tôi hy vọng các hệ thống AI này dễ căn chỉnh hơn các hệ thống mục đích chung hoặc các hệ thống thông minh hơn con người nhiều.

Các mô hình ngôn ngữ đặc biệt phù hợp để tự động hóa nghiên cứu căn chỉnh vì chúng được "tải sẵn" rất nhiều kiến ​​thức và thông tin về các giá trị của con người từ việc đọc internet. Ngay từ đầu, chúng không phải là các tác nhân độc lập và do đó không theo đuổi mục tiêu riêng của chúng trên thế giới. Để thực hiện nghiên cứu căn chỉnh, chúng không cần quyền truy cập không hạn chế vào internet. Tuy nhiên, rất nhiều nhiệm vụ nghiên cứu căn chỉnh có thể được diễn đạt dưới dạng ngôn ngữ tự nhiên hoặc nhiệm vụ mã hóa.

Các phiên bản tương lai của WebGPT, InstructGPT và Codex  có thể cung cấp nền tảng làm trợ lý nghiên cứu căn chỉnh, nhưng chúng vẫn chưa đủ khả năng. Mặc dù chúng tôi không biết khi nào các mô hình của mình sẽ đủ khả năng để đóng góp có ý nghĩa cho nghiên cứu căn chỉnh, chúng tôi nghĩ rằng điều quan trọng là phải bắt đầu trước. Sau khi đào tạo một mô hình có thể hữu ích, chúng tôi có kế hoạch cung cấp cho cộng đồng nghiên cứu căn chỉnh bên ngoài.

Hạn chế

Chúng tôi rất hào hứng với cách tiếp cận này để liên kết AGI, nhưng chúng tôi hy vọng rằng nó cần được điều chỉnh và cải thiện khi chúng tôi tìm hiểu thêm về cách công nghệ AI phát triển. Cách tiếp cận của chúng tôi cũng có một số hạn chế quan trọng:

+ Con đường được nêu ra ở đây không nhấn mạnh đến tầm quan trọng của nghiên cứu về tính mạnh mẽ và khả năng diễn giải, hai lĩnh vực mà OpenAI hiện đang đầu tư chưa đủ. Nếu phù hợp với hồ sơ của bạn, hãy nộp đơn xin việc vào vị trí nhà khoa học nghiên cứu của chúng tôi!

+ Việc sử dụng sự hỗ trợ của AI để đánh giá có khả năng mở rộng hoặc khuếch đại ngay cả những điểm không nhất quán, thành kiến ​​hoặc lỗ hổng nhỏ hiện diện trong trợ lý AI.

+ Việc sắp xếp AGI có thể liên quan đến việc giải quyết các vấn đề rất khác so với việc sắp xếp các hệ thống AI ngày nay. Chúng tôi kỳ vọng quá trình chuyển đổi sẽ diễn ra liên tục, nhưng nếu có sự gián đoạn lớn hoặc thay đổi mô hình, thì hầu hết các bài học rút ra từ việc sắp xếp các mô hình như InstructGPT có thể không hữu ích trực tiếp.

+ Phần khó nhất của vấn đề căn chỉnh có thể không liên quan đến việc thiết kế tín hiệu đào tạo có thể mở rộng và căn chỉnh cho hệ thống AI của chúng ta. Ngay cả khi điều này đúng, tín hiệu đào tạo như vậy vẫn là cần thiết.

+ Có thể không dễ dàng hơn về cơ bản để sắp xếp các mô hình có thể đẩy nhanh đáng kể quá trình nghiên cứu sắp xếp so với việc sắp xếp AGI. Nói cách khác, các mô hình kém khả năng nhất có thể giúp nghiên cứu sắp xếp có thể đã quá nguy hiểm nếu không được sắp xếp đúng cách. Nếu điều này là đúng, chúng ta sẽ không nhận được nhiều trợ giúp từ các hệ thống của riêng mình để giải quyết các vấn đề sắp xếp.

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !