0965 636 913
Chat ngay

Đo lường định luật Goodhart

 

Luật Goodhart có câu nói nổi tiếng: "Khi một biện pháp trở thành mục tiêu, nó không còn là một biện pháp tốt nữa". Mặc dù ban đầu xuất phát từ kinh tế học, nhưng đây là điều chúng tôi phải vật lộn tại OpenAI khi tìm cách tối ưu hóa các mục tiêu khó hoặc tốn kém để đo lường.

Luật của Goodhart có câu nói nổi tiếng: "Khi một biện pháp trở thành mục tiêu, nó không còn là một biện pháp tốt nữa". Mặc dù ban đầu xuất phát từ kinh tế học, nhưng đây là điều chúng ta phải vật lộn tại OpenAI khi tìm cách tối ưu hóa các mục tiêu khó hoặc tốn kém để đo lường. Thường cần phải đưa ra một số  mục tiêu ủy nhiệm  dễ đo lường hơn hoặc rẻ hơn, nhưng khi làm như vậy, chúng ta cần cẩn thận để không tối ưu hóa nó quá nhiều.

Ví dụ, như một phần trong công việc của chúng tôi để sắp xếp  các mô hình như GPT-3 với ý định và giá trị của con người, chúng tôi muốn tối ưu hóa những thứ như "  Phản hồi này hữu ích như thế nào  ?" hoặc "  Tuyên bố này chính xác về mặt thực tế như thế nào  ?". Đây là những mục tiêu phức tạp đòi hỏi con người phải kiểm tra cẩn thận mọi thứ. Vì lý do này, chúng tôi đào tạo một mô hình để dự đoán những sở thích của con người, được gọi là  mô hình phần thưởng và sử dụng các dự đoán của mô hình phần thưởng làm mục tiêu ủy nhiệm. Nhưng điều quan trọng là phải theo dõi mức độ mục tiêu thực sự được tối ưu hóa tốt như thế nào.

Trong bài đăng này, chúng ta sẽ xem xét một số phép toán đằng sau cách chúng ta thực hiện điều này. Chúng ta sẽ tập trung vào một bối cảnh đặc biệt sạch để phân tích, trong đó chúng ta có thể tiếp cận mục tiêu thực sự. Trong thực tế, ngay cả sở thích của con người cũng có thể không đo lường được những gì chúng ta thực sự quan tâm, nhưng chúng ta sẽ gác vấn đề đó sang một bên trong bài đăng này.

Lấy mẫu tốt nhất trong nhất 

Có nhiều cách để tối ưu hóa mục tiêu proxy, nhưng có lẽ cách đơn giản nhất là  tốt nhất-NNlấy mẫu , còn được gọi là  lấy mẫu từ chối  hoặc  xếp hạng lại . Chúng tôi chỉ cần lấy mẫu n lần và lấy mẫu có điểm cao nhất theo mục tiêu ủy nhiệm.

Mặc dù phương pháp này rất đơn giản, nhưng nó thực sự có thể cạnh tranh với các kỹ thuật tiên tiến hơn như học tăng cường, mặc dù phải trả giá bằng thời gian tính toán suy luận nhiều hơn. Ví dụ, trong  WebGPT , mô hình tốt nhất trong 64 của chúng tôi đã vượt trội hơn mô hình học tăng cường của chúng tôi, có lẽ một phần là do mô hình tốt nhất trong 64 được duyệt nhiều trang web hơn. Ngay cả khi áp dụng tốt nhất trong 4 cũng mang lại sự thúc đẩy đáng kể cho sở thích của con người.

Ngoài ra, tốt nhất của-NNlấy mẫu có hiệu suất đáng tin cậy và dễ phân tích về mặt toán học, rất phù hợp với các nghiên cứu thực nghiệm về định luật Goodhart và các hiện tượng liên quan.

Toán học của việc lấy mẫu tốt nhất trong n

Chúng ta hãy cùng nghiên cứu những điều tốt nhấtNNlấy mẫu chính thức hơn. Giả sử chúng ta có một số không gian mẫu SS (chẳng hạn như tập hợp các cặp câu hỏi-câu trả lời có thể có), một số phân phối xác suất PPqua SS, một mục tiêu thực sự (hoặc “phần thưởng”) RĐÚNG VẬY:S→RRĐÚNG VẬY​:S→Rvà một mục tiêu proxy Rngười đại diện:S→RRngười đại diện​:S→R. Giả sử chúng ta bằng cách nào đó tối ưu hóa Rngười đại diệnRngười đại diện​và do đó có được một số phân phối mới P′P′. Sau đó:

+ Sự mong đợi VÀx′∼P′[RĐÚNG VẬY(x′)]​VÀx′∼ V′​[ RĐÚNG VẬY​( x′) ]​ đo lường mức độ chúng ta đã tối ưu hóa mục tiêu thực sự.

+ Sự  phân kỳ KL DTại(P′∥P)DTại​( P′∥)đo lường mức độ tối ưu hóa mà chúng ta đã thực hiện. Ví dụ, nếu P′P′được thu được bằng cách lấy mẫu đầu tiên từ PPnằm trong một số tập hợp con S′⊆SS′⊆S, thì sự phân kỳ KL này chỉ là xác suất logarit âm mà một mẫu từ PP nằm trong S′S′.

Hóa ra trong trường hợp tốt nhất của-NNlấy mẫu, cả hai số lượng này đều có thể được ước tính hiệu quả bằng cách sử dụng các mẫu từ PP.

Trước tiên, hãy xem xét kỳ vọng. Cách tiếp cận ngây thơ là sử dụng ước tính Monte Carlo: chạy tốt nhất trongNNlấy mẫu nhiều lần, đo lường mục tiêu thực sự trên các mẫu đó và tính trung bình kết quả. Tuy nhiên, có một ước tính tốt hơn. Nếu chúng ta có N≥NNNmẫu từ PPNhìn chung, sau đó chúng ta có thể đồng thời xem xét  mọi tập hợp con có thể có  của các mẫu có kích thước này NN, cân nhắc từng mẫu theo số lượng tập hợp con mà nó là tốt nhất theo mục tiêu ủy nhiệm, sau đó lấy điểm mục tiêu thực trung bình có trọng số. Trọng số này chỉ là hệ số nhị thức (tôi−1N−1)(n - 1k - 1​), Ở đâu tôitôilà thứ hạng của mẫu theo mục tiêu ủy nhiệm, từ 11(tệ nhất) lên đến NN(tốt nhất). 

Tổng của các trọng số này là (NN)(NN​), đưa ra bằng chứng về  danh tính của cây gậy khúc côn cầu(mở trong cửa sổ mới). Để có được phép suy luận chính thức về ước lượng được mô tả ở đây, hãy xem Phụ lục I của  bài báo WebGPT.

Cũng như việc sử dụng các mẫu hiệu quả hơn, điều này cũng cho phép chúng ta tái sử dụng các mẫu cho các giá trị khác nhau của NN. Đối với sự phân kỳ KL, thật đáng ngạc nhiên, điều này hóa ra lại có một công thức chính xác áp dụng cho bất kỳ phân phối xác suất liên tục nào PP(tức là, miễn là PPkhông có khối lượng điểm). Người ta có thể ngây thơ đoán rằng câu trả lời là nhật ký⁡Nlo gN, kể từ khi tốt nhất-NNđang làm điều gì đó giống như việc chiếm lấy đỉnh 1NN1​của phân phối, và điều này gần đúng: câu trả lời chính xác là nhật ký⁡N−N−1Nlo gN−Nn - 1​.B .

Các ước tính này cho phép chúng ta dễ dàng phân tích cách mục tiêu thực sự thay đổi theo lượng tối ưu hóa được áp dụng cho mục tiêu ủy nhiệm.

Dưới đây là một ví dụ thực tế từ  WebGPT :

Tuyển tập hay nhấtNNhiệu suất cho WebGPT 175B

 

Tuyển tập hay nhấtNNhiệu suất cho WebGPT, với các vùng được tô bóng biểu diễn \pm 1±1 lỗi chuẩn và trục KL theo thang căn bậc hai. Ở đây, phân phối ban đầu (PP) được đưa ra bởi mô hình 175B được đào tạo bằng cách sử dụng sao chép hành vi, mục tiêu ủy nhiệm được sử dụng để tính toán tốt nhấtNN(Rngười đại diệnRngười đại diện​) được đưa ra bởi mô hình phần thưởng đào tạo và chúng tôi xem xét ba mục tiêu được cho là “đúng” (RĐÚNG VẬYRĐÚNG VẬY​): bản thân mô hình phần thưởng đào tạo, một mô hình phần thưởng xác thực được đào tạo trên dữ liệu được giữ lại và sở thích thực tế của con người. Không có nhiều sự tối ưu hóa quá mức của mục tiêu proxy, nhưng chúng tôi mong đợi sẽ có ở KL cao hơn.

Vượt xa hơn việc lấy mẫu tốt nhất 

Hạn chế chính của best-of-NNlấy mẫu là sự phân kỳ KL tăng theo logarit với NN, do đó nó chỉ phù hợp để áp dụng một lượng nhỏ tối ưu hóa.

Để áp dụng tối ưu hóa nhiều hơn, chúng tôi thường sử dụng học tăng cường. Trong các thiết lập chúng tôi đã nghiên cứu cho đến nay, chẳng hạn như tóm tắt, chúng tôi thường có thể đạt được KL khoảng 10  nats sử dụng học tăng cường trước khi mục tiêu thực sự bắt đầu giảm do luật Goodhart. Chúng ta phải lấy n ở khoảng 60.000 để đạt được KL này bằng cách sử dụng best-of-NNvà chúng tôi hy vọng có thể đạt được KL lớn hơn nhiều so với con số này nhờ những cải tiến trong mô hình phần thưởng và phương pháp học tăng cường của chúng tôi.

Tuy nhiên, không phải tất cả các nat đều như nhau. Theo kinh nghiệm, đối với các ngân sách KL nhỏ, tốt nhất-NNtối ưu hóa tốt hơn cả proxy và mục tiêu thực sự hơn là học tăng cường. Theo trực giác, tốt nhất-NNlà phương pháp “thô bạo”, khiến nó hiệu quả hơn về mặt lý thuyết thông tin so với học tăng cường, nhưng kém hiệu quả hơn về mặt tính toán ở các KL lớn. 

Xem thêm: mua tài khoản ChatGPT 4 với nhiều ưu đãi hấp dẫn trong ngày hôm nay!

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !