Luật Goodhart có câu nói nổi tiếng: "Khi một biện pháp trở thành mục tiêu, nó không còn là một biện pháp tốt nữa". Mặc dù ban đầu xuất phát từ kinh tế học, nhưng đây là điều chúng tôi phải vật lộn tại OpenAI khi tìm cách tối ưu hóa các mục tiêu khó hoặc tốn kém để đo lường.
Luật của Goodhart có câu nói nổi tiếng: "Khi một biện pháp trở thành mục tiêu, nó không còn là một biện pháp tốt nữa". Mặc dù ban đầu xuất phát từ kinh tế học, nhưng đây là điều chúng ta phải vật lộn tại OpenAI khi tìm cách tối ưu hóa các mục tiêu khó hoặc tốn kém để đo lường. Thường cần phải đưa ra một số mục tiêu ủy nhiệm dễ đo lường hơn hoặc rẻ hơn, nhưng khi làm như vậy, chúng ta cần cẩn thận để không tối ưu hóa nó quá nhiều.
Ví dụ, như một phần trong công việc của chúng tôi để sắp xếp các mô hình như GPT-3 với ý định và giá trị của con người, chúng tôi muốn tối ưu hóa những thứ như " Phản hồi này hữu ích như thế nào ?" hoặc " Tuyên bố này chính xác về mặt thực tế như thế nào ?". Đây là những mục tiêu phức tạp đòi hỏi con người phải kiểm tra cẩn thận mọi thứ. Vì lý do này, chúng tôi đào tạo một mô hình để dự đoán những sở thích của con người, được gọi là mô hình phần thưởng và sử dụng các dự đoán của mô hình phần thưởng làm mục tiêu ủy nhiệm. Nhưng điều quan trọng là phải theo dõi mức độ mục tiêu thực sự được tối ưu hóa tốt như thế nào.
Trong bài đăng này, chúng ta sẽ xem xét một số phép toán đằng sau cách chúng ta thực hiện điều này. Chúng ta sẽ tập trung vào một bối cảnh đặc biệt sạch để phân tích, trong đó chúng ta có thể tiếp cận mục tiêu thực sự. Trong thực tế, ngay cả sở thích của con người cũng có thể không đo lường được những gì chúng ta thực sự quan tâm, nhưng chúng ta sẽ gác vấn đề đó sang một bên trong bài đăng này.
Lấy mẫu tốt nhất trong nhất
Có nhiều cách để tối ưu hóa mục tiêu proxy, nhưng có lẽ cách đơn giản nhất là tốt nhất-NNlấy mẫu , còn được gọi là lấy mẫu từ chối hoặc xếp hạng lại . Chúng tôi chỉ cần lấy mẫu n lần và lấy mẫu có điểm cao nhất theo mục tiêu ủy nhiệm.
- Tài khoản ChatGPT Plus chính hãng giá rẻ!
Mặc dù phương pháp này rất đơn giản, nhưng nó thực sự có thể cạnh tranh với các kỹ thuật tiên tiến hơn như học tăng cường, mặc dù phải trả giá bằng thời gian tính toán suy luận nhiều hơn. Ví dụ, trong WebGPT , mô hình tốt nhất trong 64 của chúng tôi đã vượt trội hơn mô hình học tăng cường của chúng tôi, có lẽ một phần là do mô hình tốt nhất trong 64 được duyệt nhiều trang web hơn. Ngay cả khi áp dụng tốt nhất trong 4 cũng mang lại sự thúc đẩy đáng kể cho sở thích của con người.
Ngoài ra, tốt nhất của-NNlấy mẫu có hiệu suất đáng tin cậy và dễ phân tích về mặt toán học, rất phù hợp với các nghiên cứu thực nghiệm về định luật Goodhart và các hiện tượng liên quan.
Toán học của việc lấy mẫu tốt nhất trong n
Chúng ta hãy cùng nghiên cứu những điều tốt nhấtNNlấy mẫu chính thức hơn. Giả sử chúng ta có một số không gian mẫu SS (chẳng hạn như tập hợp các cặp câu hỏi-câu trả lời có thể có), một số phân phối xác suất PPqua SS, một mục tiêu thực sự (hoặc “phần thưởng”) RĐÚNG VẬY:S→RRĐÚNG VẬY:S→Rvà một mục tiêu proxy Rngười đại diện:S→RRngười đại diện:S→R. Giả sử chúng ta bằng cách nào đó tối ưu hóa Rngười đại diệnRngười đại diệnvà do đó có được một số phân phối mới P′P′. Sau đó:
+ Sự mong đợi VÀx′∼P′[RĐÚNG VẬY(x′)]VÀx′∼ V′[ RĐÚNG VẬY( x′) ] đo lường mức độ chúng ta đã tối ưu hóa mục tiêu thực sự.
+ Sự phân kỳ KL DTại(P′∥P)DTại( P′∥P )đo lường mức độ tối ưu hóa mà chúng ta đã thực hiện. Ví dụ, nếu P′P′được thu được bằng cách lấy mẫu đầu tiên từ PPnằm trong một số tập hợp con S′⊆SS′⊆S, thì sự phân kỳ KL này chỉ là xác suất logarit âm mà một mẫu từ PP nằm trong S′S′.
Hóa ra trong trường hợp tốt nhất của-NNlấy mẫu, cả hai số lượng này đều có thể được ước tính hiệu quả bằng cách sử dụng các mẫu từ PP.
Trước tiên, hãy xem xét kỳ vọng. Cách tiếp cận ngây thơ là sử dụng ước tính Monte Carlo: chạy tốt nhất trongNNlấy mẫu nhiều lần, đo lường mục tiêu thực sự trên các mẫu đó và tính trung bình kết quả. Tuy nhiên, có một ước tính tốt hơn. Nếu chúng ta có N≥NN≥Nmẫu từ PPNhìn chung, sau đó chúng ta có thể đồng thời xem xét mọi tập hợp con có thể có của các mẫu có kích thước này NN, cân nhắc từng mẫu theo số lượng tập hợp con mà nó là tốt nhất theo mục tiêu ủy nhiệm, sau đó lấy điểm mục tiêu thực trung bình có trọng số. Trọng số này chỉ là hệ số nhị thức (tôi−1N−1)(n - 1k - 1), Ở đâu tôitôilà thứ hạng của mẫu theo mục tiêu ủy nhiệm, từ 11(tệ nhất) lên đến NN(tốt nhất).
Tổng của các trọng số này là (NN)(NN), đưa ra bằng chứng về danh tính của cây gậy khúc côn cầu(mở trong cửa sổ mới). Để có được phép suy luận chính thức về ước lượng được mô tả ở đây, hãy xem Phụ lục I của bài báo WebGPT.
Cũng như việc sử dụng các mẫu hiệu quả hơn, điều này cũng cho phép chúng ta tái sử dụng các mẫu cho các giá trị khác nhau của NN. Đối với sự phân kỳ KL, thật đáng ngạc nhiên, điều này hóa ra lại có một công thức chính xác áp dụng cho bất kỳ phân phối xác suất liên tục nào PP(tức là, miễn là PPkhông có khối lượng điểm). Người ta có thể ngây thơ đoán rằng câu trả lời là nhật kýNlo gN, kể từ khi tốt nhất-NNđang làm điều gì đó giống như việc chiếm lấy đỉnh 1NN1của phân phối, và điều này gần đúng: câu trả lời chính xác là nhật kýN−N−1Nlo gN−Nn - 1.B .
Các ước tính này cho phép chúng ta dễ dàng phân tích cách mục tiêu thực sự thay đổi theo lượng tối ưu hóa được áp dụng cho mục tiêu ủy nhiệm.
Dưới đây là một ví dụ thực tế từ WebGPT :
Tuyển tập hay nhấtNNhiệu suất cho WebGPT 175B
Vượt xa hơn việc lấy mẫu tốt nhất
Hạn chế chính của best-of-NNlấy mẫu là sự phân kỳ KL tăng theo logarit với NN, do đó nó chỉ phù hợp để áp dụng một lượng nhỏ tối ưu hóa.
Để áp dụng tối ưu hóa nhiều hơn, chúng tôi thường sử dụng học tăng cường. Trong các thiết lập chúng tôi đã nghiên cứu cho đến nay, chẳng hạn như tóm tắt, chúng tôi thường có thể đạt được KL khoảng 10 nats sử dụng học tăng cường trước khi mục tiêu thực sự bắt đầu giảm do luật Goodhart. Chúng ta phải lấy n ở khoảng 60.000 để đạt được KL này bằng cách sử dụng best-of-NNvà chúng tôi hy vọng có thể đạt được KL lớn hơn nhiều so với con số này nhờ những cải tiến trong mô hình phần thưởng và phương pháp học tăng cường của chúng tôi.
Tuy nhiên, không phải tất cả các nat đều như nhau. Theo kinh nghiệm, đối với các ngân sách KL nhỏ, tốt nhất-NNtối ưu hóa tốt hơn cả proxy và mục tiêu thực sự hơn là học tăng cường. Theo trực giác, tốt nhất-NNlà phương pháp “thô bạo”, khiến nó hiệu quả hơn về mặt lý thuyết thông tin so với học tăng cường, nhưng kém hiệu quả hơn về mặt tính toán ở các KL lớn.
Xem thêm: mua tài khoản ChatGPT 4 với nhiều ưu đãi hấp dẫn trong ngày hôm nay!