Hiện tại chúng tôi không hiểu cách hiểu hoạt động thần kinh trong các mô hình ngôn ngữ. Hôm nay, chúng tôi chia sẻ các phương pháp cải tiến để tìm ra một số lượng lớn "tính năng"—các mô hình hoạt động mà chúng tôi hy vọng là con người có thể diễn giải được. Các phương pháp của chúng tôi mở rộng tốt hơn so với công trình hiện có và chúng tôi sử dụng chúng để tìm ra 16 triệu tính năng trong tài khoản ChatGPT-4. Chúng tôi đang chia sẻ một bài báo (mở trong cửa sổ mới), mã số (mở trong cửa sổ mới)và hình ảnh tính năng (mở trong cửa sổ mới)với cộng đồng nghiên cứu để thúc đẩy việc khám phá sâu hơn.
Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ
Thách thức của việc giải thích mạng lưới nơ-ron
Không giống như hầu hết các sáng tạo của con người, chúng ta không thực sự hiểu được hoạt động bên trong của mạng nơ-ron. Ví dụ, các kỹ sư có thể trực tiếp thiết kế, đánh giá và sửa chữa ô tô dựa trên thông số kỹ thuật của các thành phần của chúng, đảm bảo an toàn và hiệu suất. Tuy nhiên, mạng nơ-ron không được thiết kế trực tiếp; thay vào đó, chúng ta thiết kế các thuật toán đào tạo chúng. Các mạng lưới kết quả không được hiểu rõ và không thể dễ dàng phân tách thành các phần có thể nhận dạng được. Điều này có nghĩa là chúng ta không thể lý giải về sự an toàn của AI theo cùng cách chúng ta lý giải về một thứ gì đó như sự an toàn của ô tô.
Để hiểu và diễn giải mạng nơ-ron, trước tiên chúng ta cần tìm các khối xây dựng hữu ích cho các phép tính nơ-ron. Thật không may, các hoạt động nơ-ron bên trong mô hình ngôn ngữ kích hoạt theo các mẫu không thể đoán trước, dường như biểu diễn nhiều khái niệm cùng một lúc. Chúng cũng kích hoạt dày đặc, nghĩa là mỗi hoạt động luôn kích hoạt trên mỗi đầu vào. Nhưng các khái niệm trong thế giới thực rất thưa thớt—trong bất kỳ bối cảnh nào, chỉ một phần nhỏ trong số tất cả các khái niệm là có liên quan. Điều này thúc đẩy việc sử dụng bộ mã hóa tự động thưa thớt, một phương pháp để xác định một số ít "tính năng" trong mạng nơ-ron quan trọng để tạo ra bất kỳ đầu ra nào, tương tự như tập hợp nhỏ các khái niệm mà một người có thể nghĩ đến khi lý luận về một tình huống. Các tính năng của chúng hiển thị các mẫu hoạt động thưa thớt tự nhiên phù hợp với các khái niệm dễ hiểu đối với con người, ngay cả khi không có động lực trực tiếp để diễn giải.
Tuy nhiên, vẫn còn những thách thức nghiêm trọng trong việc đào tạo các bộ mã hóa tự động thưa thớt. Các mô hình ngôn ngữ lớn biểu diễn một số lượng lớn các khái niệm và các bộ mã hóa tự động của chúng tôi có thể cần phải tương ứng lớn để có thể bao phủ gần hết các khái niệm trong một mô hình biên giới. Việc học một số lượng lớn các tính năng thưa thớt là một thách thức và các công trình trước đây chưa được chứng minh là có thể mở rộng tốt.
Tiến trình nghiên cứu của chúng tôi: đào tạo autoencoder quy mô lớn
Chúng tôi đã phát triển các phương pháp luận mới tiên tiến cho phép chúng tôi mở rộng các bộ mã hóa tự động thưa thớt của mình lên hàng chục triệu tính năng trên các mô hình AI tiên tiến. Chúng tôi thấy rằng phương pháp luận của chúng tôi chứng minh khả năng mở rộng mượt mà và có thể dự đoán được, với lợi nhuận theo quy mô tốt hơn so với các kỹ thuật trước đây. Chúng tôi cũng giới thiệu một số số liệu mới để đánh giá chất lượng tính năng.
Chúng tôi đã sử dụng công thức của mình để đào tạo nhiều bộ mã hóa tự động khác nhau trên các kích hoạt GPT-2 nhỏ và GPT-4, bao gồm một bộ mã hóa tự động 16 triệu tính năng trên GPT-4. Để kiểm tra khả năng diễn giải của các tính năng, chúng tôi hình dung một tính năng nhất định bằng cách hiển thị các tài liệu nơi nó được kích hoạt. Sau đây là một số tính năng có thể diễn giải mà chúng tôi tìm thấy.
Tuy nhiên, vẫn còn những thách thức nghiêm trọng trong việc đào tạo các bộ mã hóa tự động thưa thớt. Các mô hình ngôn ngữ lớn biểu diễn một số lượng lớn các khái niệm và các bộ mã hóa tự động của chúng tôi có thể cần phải tương ứng lớn để có thể bao phủ gần hết các khái niệm trong một mô hình biên giới. Việc học một số lượng lớn các tính năng thưa thớt là một thách thức và các công trình trước đây chưa được chứng minh là có thể mở rộng tốt.
Tính năng GPT-4: cụm từ liên quan đến sự vật (đặc biệt là con người) bị lỗi hầu hết mọi người, thì không phải vậy . Tất cả chúng ta đều có những ngày tuyệt vời, thoáng thấy những gì chúng ta cho là hoàn hảo , nhưng chúng ta cũng có thể có những ngày thực sự tệ hại, và tôi có thể đảm bảo với bạn rằng bạn không đơn độc . Vì vậy, đứa trẻ mới biết đi của tôi, và hầu hết những đứa trẻ mới biết đi khác ngoài kia , hãy nhớ rằng ; Đừng là
Tính năng GPT-4: kết thúc các cụm từ liên quan đến việc tăng giá
Tính năng nhỏ của GPT-2: cụm từ có dạng X và Y
Tính năng GPT-4: nhật ký đào tạo máy học
Tính năng nhỏ của GPT-2: câu hỏi tu từ/bực tức
Tính năng GPT-4: vành đai đại số
Tính năng nhỏ của GPT-2: [ai/cái gì/khi nào/ở đâu/tại sao]
Đặc điểm của GPT-4: thụ thể adenosine và dopamine
Hạn chế
Chúng tôi rất hào hứng với khả năng diễn giải để cuối cùng tăng độ tin cậy và khả năng điều khiển của mô hình. Tuy nhiên, đây vẫn là công việc ban đầu với nhiều hạn chế:
+ Giống như các tác phẩm trước, nhiều đặc điểm được phát hiện vẫn khó diễn giải, với nhiều đặc điểm kích hoạt không có mô hình rõ ràng hoặc thể hiện các kích hoạt giả không liên quan đến khái niệm mà chúng dường như thường mã hóa. Hơn nữa, chúng ta không có cách tốt để kiểm tra tính hợp lệ của các diễn giải.
+ Bộ mã hóa tự động thưa thớt không nắm bắt được toàn bộ hành vi của mô hình gốc. Hiện tại, việc truyền các kích hoạt của GPT-4 qua bộ mã hóa tự động thưa thớt dẫn đến hiệu suất tương đương với mô hình được đào tạo với lượng tính toán ít hơn khoảng 10 lần. Để ánh xạ đầy đủ các khái niệm trong LLM biên giới, chúng ta có thể cần mở rộng quy mô lên hàng tỷ hoặc hàng nghìn tỷ tính năng, điều này sẽ rất khó khăn ngay cả với các kỹ thuật mở rộng quy mô được cải thiện của chúng tôi.
+ Bộ mã hóa tự động thưa thớt có thể tìm thấy các tính năng tại một điểm trong mô hình, nhưng đó chỉ là một bước để diễn giải mô hình. Cần phải làm nhiều hơn nữa để hiểu cách mô hình tính toán các tính năng đó và cách các tính năng đó được sử dụng ở hạ lưu trong phần còn lại của mô hình.
Nhìn về phía trước và mở nguồn nghiên cứu của chúng tôi
Trong khi nghiên cứu về bộ mã hóa tự động thưa thớt rất thú vị, vẫn còn một chặng đường dài phía trước với nhiều thách thức chưa được giải quyết. Trong ngắn hạn, chúng tôi hy vọng các tính năng mà chúng tôi tìm thấy có thể hữu ích trong việc giám sát và điều hướng hành vi của mô hình ngôn ngữ và có kế hoạch thử nghiệm điều này trong các mô hình biên giới của chúng tôi. Cuối cùng, chúng tôi hy vọng rằng một ngày nào đó, khả năng diễn giải có thể cung cấp cho chúng tôi những cách mới để lý giải về tính an toàn và độ mạnh của mô hình, đồng thời tăng đáng kể lòng tin của chúng tôi vào các mô hình AI mạnh mẽ bằng cách đưa ra những đảm bảo chắc chắn về hành vi của chúng.
Hôm nay, chúng tôi chia sẻ một bài báo (mở trong cửa sổ mới)trình bày chi tiết các thí nghiệm và phương pháp của chúng tôi, mà chúng tôi hy vọng sẽ giúp các nhà nghiên cứu dễ dàng đào tạo các bộ mã hóa tự động ở quy mô lớn. Chúng tôi đang phát hành một bộ mã hóa tự động đầy đủ cho GPT-2 nhỏ, cùng với mã (mở trong cửa sổ mới)để sử dụng chúng và trình trực quan hóa tính năng (mở trong cửa sổ mới)để hiểu được các tính năng của GPT-2 và GPT-4 có thể tương ứng với những gì.