Đo lường định luật Goodhart

Luật Goodhart có câu nói nổi tiếng: "Khi một biện pháp trở thành mục tiêu, nó không còn là một biện pháp tốt nữa". Mặc dù ban đầu xuất phát từ kinh tế học, nhưng đây là điều chúng tôi phải vật lộn tại OpenAI khi tìm cách tối ưu hóa các mục tiêu khó hoặc tốn kém để đo lường.

Luật của Goodhart có câu nói nổi tiếng: "Khi một biện pháp trở thành mục tiêu, nó không còn là một biện pháp tốt nữa". Mặc dù ban đầu xuất phát từ kinh tế học, nhưng đây là điều chúng ta phải vật lộn tại OpenAI khi tìm cách tối ưu hóa các mục tiêu khó hoặc tốn kém để đo lường. Thường cần phải đưa ra một số mục tiêu ủy nhiệm dễ đo lường hơn hoặc rẻ hơn, nhưng khi làm như vậy, chúng ta cần cẩn thận để không tối ưu hóa nó quá nhiều.

Ví dụ, như một phần trong công việc của chúng tôi để sắp xếp các mô hình như GPT-3 với ý định và giá trị của con người, chúng tôi muốn tối ưu hóa những thứ như " Phản hồi này hữu ích như thế nào ?" hoặc " Tuyên bố này chính xác về mặt thực tế như thế nào ?". Đây là những mục tiêu phức tạp đòi hỏi con người phải kiểm tra cẩn thận mọi thứ. Vì lý do này, chúng tôi đào tạo một mô hình để dự đoán những sở thích của con người, được gọi là mô hình phần thưởng và sử dụng các dự đoán của mô hình phần thưởng làm mục tiêu ủy nhiệm. Nhưng điều quan trọng là phải theo dõi mức độ mục tiêu thực sự được tối ưu hóa tốt như thế nào.

Trong bài đăng này, chúng ta sẽ xem xét một số phép toán đằng sau cách chúng ta thực hiện điều này. Chúng ta sẽ tập trung vào một bối cảnh đặc biệt sạch để phân tích, trong đó chúng ta có thể tiếp cận mục tiêu thực sự. Trong thực tế, ngay cả sở thích của con người cũng có thể không đo lường được những gì chúng ta thực sự quan tâm, nhưng chúng ta sẽ gác vấn đề đó sang một bên trong bài đăng này.

Lấy mẫu tốt nhất trong nhất

Có nhiều cách để tối ưu hóa mục tiêu proxy, nhưng có lẽ cách đơn giản nhất là tốt nhất-NNlấy mẫu , còn được gọi là lấy mẫu từ chối hoặc xếp hạng lại . Chúng tôi chỉ cần lấy mẫu n lần và lấy mẫu có điểm cao nhất theo mục tiêu ủy nhiệm.

Tài khoản ChatGPT Plus chính hãng giá rẻ!

Mặc dù phương pháp này rất đơn giản, nhưng nó thực sự có thể cạnh tranh với các kỹ thuật tiên tiến hơn như học tăng cường, mặc dù phải trả giá bằng thời gian tính toán suy luận nhiều hơn. Ví dụ, trong WebGPT , mô hình tốt nhất trong 64 của chúng tôi đã vượt trội hơn mô hình học tăng cường của chúng tôi, có lẽ một phần là do mô hình tốt nhất trong 64 được duyệt nhiều trang web hơn. Ngay cả khi áp dụng tốt nhất trong 4 cũng mang lại sự thúc đẩy đáng kể cho sở thích của con người.

Ngoài ra, tốt nhất của-NNlấy mẫu có hiệu suất đáng tin cậy và dễ phân tích về mặt toán học, rất phù hợp với các nghiên cứu thực nghiệm về định luật Goodhart và các hiện tượng liên quan.

Toán học của việc lấy mẫu tốt nhất trong n

Chúng ta hãy cùng nghiên cứu những điều tốt nhấtNNlấy mẫu chính thức hơn. Giả sử chúng ta có một số không gian mẫu SS (chẳng hạn như tập hợp các cặp câu hỏi-câu trả lời có thể có), một số phân phối xác suất PPqua SS, một mục tiêu thực sự (hoặc “phần thưởng”) RĐÚNG VẬY:S→RRĐÚNG VẬY:S→Rvà một mục tiêu proxy Rngười đại diện:S→RRngười đại diện:S→R. Giả sử chúng ta bằng cách nào đó tối ưu hóa Rngười đại diệnRngười đại diệnvà do đó có được một số phân phối mới P′P′. Sau đó:

+ Sự mong đợi VÀx′∼P′[RĐÚNG VẬY(x′)]VÀx′∼ V′[ RĐÚNG VẬY( x′) ] đo lường mức độ chúng ta đã tối ưu hóa mục tiêu thực sự.

+ Sự phân kỳ KL DTại(P′∥P)DTại( P′∥P )đo lường mức độ tối ưu hóa mà chúng ta đã thực hiện. Ví dụ, nếu P′P′được thu được bằng cách lấy mẫu đầu tiên từ PPnằm trong một số tập hợp con S′⊆SS′⊆S, thì sự phân kỳ KL này chỉ là xác suất logarit âm mà một mẫu từ PP nằm trong S′S′.

Hóa ra trong trường hợp tốt nhất của-NNlấy mẫu, cả hai số lượng này đều có thể được ước tính hiệu quả bằng cách sử dụng các mẫu từ PP.

Trước tiên, hãy xem xét kỳ vọng. Cách tiếp cận ngây thơ là sử dụng ước tính Monte Carlo: chạy tốt nhất trongNNlấy mẫu nhiều lần, đo lường mục tiêu thực sự trên các mẫu đó và tính trung bình kết quả. Tuy nhiên, có một ước tính tốt hơn. Nếu chúng ta có N≥NN≥Nmẫu từ PPNhìn chung, sau đó chúng ta có thể đồng thời xem xét mọi tập hợp con có thể có của các mẫu có kích thước này NN, cân nhắc từng mẫu theo số lượng tập hợp con mà nó là tốt nhất theo mục tiêu ủy nhiệm, sau đó lấy điểm mục tiêu thực trung bình có trọng số. Trọng số này chỉ là hệ số nhị thức (tôi−1N−1)(n - 1k - 1), Ở đâu tôitôilà thứ hạng của mẫu theo mục tiêu ủy nhiệm, từ 11(tệ nhất) lên đến NN(tốt nhất).

Tổng của các trọng số này là (NN)(NN), đưa ra bằng chứng về danh tính của cây gậy khúc côn cầu(mở trong cửa sổ mới). Để có được phép suy luận chính thức về ước lượng được mô tả ở đây, hãy xem Phụ lục I của bài báo WebGPT.

Cũng như việc sử dụng các mẫu hiệu quả hơn, điều này cũng cho phép chúng ta tái sử dụng các mẫu cho các giá trị khác nhau của NN. Đối với sự phân kỳ KL, thật đáng ngạc nhiên, điều này hóa ra lại có một công thức chính xác áp dụng cho bất kỳ phân phối xác suất liên tục nào PP(tức là, miễn là PPkhông có khối lượng điểm). Người ta có thể ngây thơ đoán rằng câu trả lời là nhật ký⁡Nlo gN, kể từ khi tốt nhất-NNđang làm điều gì đó giống như việc chiếm lấy đỉnh 1NN1của phân phối, và điều này gần đúng: câu trả lời chính xác là nhật ký⁡N−N−1Nlo gN−Nn - 1.B ^.

Các ước tính này cho phép chúng ta dễ dàng phân tích cách mục tiêu thực sự thay đổi theo lượng tối ưu hóa được áp dụng cho mục tiêu ủy nhiệm.

Dưới đây là một ví dụ thực tế từ WebGPT :

Tuyển tập hay nhấtNNhiệu suất cho WebGPT 175B

Tuyển tập hay nhấtNNhiệu suất cho WebGPT, với các vùng được tô bóng biểu diễn \pm 1±1 lỗi chuẩn và trục KL theo thang căn bậc hai. Ở đây, phân phối ban đầu (PP) được đưa ra bởi mô hình 175B được đào tạo bằng cách sử dụng sao chép hành vi, mục tiêu ủy nhiệm được sử dụng để tính toán tốt nhấtNN(Rngười đại diệnRngười đại diện) được đưa ra bởi mô hình phần thưởng đào tạo và chúng tôi xem xét ba mục tiêu được cho là “đúng” (RĐÚNG VẬYRĐÚNG VẬY): bản thân mô hình phần thưởng đào tạo, một mô hình phần thưởng xác thực được đào tạo trên dữ liệu được giữ lại và sở thích thực tế của con người. Không có nhiều sự tối ưu hóa quá mức của mục tiêu proxy, nhưng chúng tôi mong đợi sẽ có ở KL cao hơn.

Vượt xa hơn việc lấy mẫu tốt nhất

Hạn chế chính của best-of-NNlấy mẫu là sự phân kỳ KL tăng theo logarit với NN, do đó nó chỉ phù hợp để áp dụng một lượng nhỏ tối ưu hóa.

Để áp dụng tối ưu hóa nhiều hơn, chúng tôi thường sử dụng học tăng cường. Trong các thiết lập chúng tôi đã nghiên cứu cho đến nay, chẳng hạn như tóm tắt, chúng tôi thường có thể đạt được KL khoảng 10 nats sử dụng học tăng cường trước khi mục tiêu thực sự bắt đầu giảm do luật Goodhart. Chúng ta phải lấy n ở khoảng 60.000 để đạt được KL này bằng cách sử dụng best-of-NNvà chúng tôi hy vọng có thể đạt được KL lớn hơn nhiều so với con số này nhờ những cải tiến trong mô hình phần thưởng và phương pháp học tăng cường của chúng tôi.

Tuy nhiên, không phải tất cả các nat đều như nhau. Theo kinh nghiệm, đối với các ngân sách KL nhỏ, tốt nhất-NNtối ưu hóa tốt hơn cả proxy và mục tiêu thực sự hơn là học tăng cường. Theo trực giác, tốt nhất-NNlà phương pháp “thô bạo”, khiến nó hiệu quả hơn về mặt lý thuyết thông tin so với học tăng cường, nhưng kém hiệu quả hơn về mặt tính toán ở các KL lớn.

Xem thêm: mua tài khoản ChatGPT 4 với nhiều ưu đãi hấp dẫn trong ngày hôm nay!

Họ tên (*)	Số điện thoại (*)
Email (*)	Dịch vụ

Đo lường định luật Goodhart

Lấy mẫu tốt nhất trong nhất

Toán học của việc lấy mẫu tốt nhất trong n

Dưới đây là một ví dụ thực tế từ WebGPT :

Vượt xa hơn việc lấy mẫu tốt nhất

Bài liên quan

Hệ thống phân cấp hướng dẫn: Đào tạo LLM để ưu tiên các…

Trình Tạo Bài Hát Trên Cửa Hàng GPT: Công Cụ Mới Mẻ Cho…

Các mô hình tạo video như trình mô phỏng thế giới

60+ Lời nhắc ChatGPT cho các bài đăng hấp dẫn trên mạng xã…

Cải thiện lý luận toán học bằng cách giám sát quy trình

Liệu ChatGPT có thay thế được người viết nội dung không?

Đầu vào dân chủ cho AI

AI trong kinh doanh 2025: Vai trò của ChatGPT trong những đổi mới…

GPT là GPT: Một cái nhìn ban đầu về tiềm năng tác động…

Cách đổi Mật khẩu Chat GPT - Hướng dẫn đổi Pass Chat GPT 100% Thành công

Hướng dẫn Cách đăng nhập Chat GPT Nhanh nhất | Có hỗ trợ Miễn phí qua Teamview-Ultraview

Chat GPT Plus là gì? So sánh Chat GPT Plus với Chat GPT Miễn phí

Chat GPT bị giới hạn giải thích vì sao và cách khắc phục

Chat GPT là gì ? Cách đăng Ký Chat GPT Miễn Phí tại Việt Nam

AI trong kinh doanh 2025: Vai trò của ChatGPT trong những đổi mới trong tương lai

GPT là GPT: Một cái nhìn ban đầu về tiềm năng tác động của các mô hình ngôn ngữ lớn lên thị trường lao động

Có gì mới trong ChatGPT vào năm 2025?

GPT-4

ChatGPT đang thay đổi cách chúng ta viết?

Point-E: Một hệ thống tạo ra các đám mây điểm 3D từ các lời nhắc phức tạp

Chatgpt sẽ ảnh hưởng đến SEO như thế nào

Luật mở rộng cho mô hình phần thưởng tối ưu hóa quá mức

Trò chuyện GPT-4 - Tất cả những gì bạn cần biết về AI mạnh mẽ này

Giới thiệu Whisper

Chế độ nghiên cứu sâu ChatGPT là gì?

Đào tạo hiệu quả các mô hình ngôn ngữ để điền vào giữa

ChatGPT 2025: AI Thế Hệ Mới Sẵn Sàng Thay Đổi Ngành Viết Nội Dung

DALL·E 2 biện pháp giảm thiểu trước khi đào tạo

Cập nhật Big ChatGPT năm 2025: Cách mạng hóa tiếp thị kỹ thuật số với AI tiên tiến

Học chơi Minecraft với Video PreTraining

Chat GPT

Trí tuệ nhân tạo AI

Đăng ký tư vấn