.png)
Chúng tôi sử dụng GPT-4 để tự động viết lời giải thích cho hành vi của các tế bào thần kinh trong các mô hình ngôn ngữ lớn và chấm điểm cho những lời giải thích đó. Chúng tôi phát hành một tập dữ liệu về những lời giải thích (không hoàn hảo) này và điểm cho mọi tế bào thần kinh trong GPT-2.
Các mô hình ngôn ngữ đã trở nên có khả năng hơn và được triển khai rộng rãi hơn, nhưng hiểu biết của chúng ta về cách chúng hoạt động bên trong vẫn còn rất hạn chế. Ví dụ, có thể khó phát hiện từ đầu ra của chúng liệu chúng có sử dụng phương pháp tìm kiếm thiên vị hay tham gia vào sự lừa dối hay không. Nghiên cứu khả năng diễn giải nhằm mục đích khám phá thêm thông tin bằng cách xem xét bên trong mô hình.
Một cách tiếp cận đơn giản đối với nghiên cứu khả năng diễn giải là trước tiên phải hiểu các thành phần riêng lẻ (nơ-ron và đầu chú ý) đang làm gì. Theo truyền thống, điều này đòi hỏi con người phải thực hiện thủ công kiểm tra các tế bào thần kinh để tìm ra những đặc điểm nào của dữ liệu mà chúng đại diện. Quy trình này không mở rộng tốt: khó áp dụng nó vào mạng nơ-ron với hàng chục hoặc hàng trăm tỷ tham số. Chúng tôi đề xuất một quy trình tự động sử dụng tài khoản ChatGPT-4 để tạo và chấm điểm các giải thích ngôn ngữ tự nhiên về hành vi của nơ-ron và áp dụng nó vào nơ-ron trong một mô hình ngôn ngữ khác.
Công trình này là một phần của trụ cột thứ ba trong cách tiếp cận của chúng tôi đối với nghiên cứu căn chỉnh : chúng tôi muốn tự động hóa chính công việc nghiên cứu căn chỉnh. Một khía cạnh đầy hứa hẹn của cách tiếp cận này là nó mở rộng theo tốc độ phát triển của AI. Khi các mô hình tương lai ngày càng trở nên thông minh và hữu ích như trợ lý, chúng ta sẽ tìm thấy những lời giải thích tốt hơn.
Những gì chúng tôi tìm thấy
Sử dụng phương pháp chấm điểm của chúng tôi, chúng tôi có thể bắt đầu đo lường mức độ hiệu quả của các kỹ thuật của chúng tôi đối với các phần khác nhau của mạng và cố gắng cải thiện kỹ thuật cho các phần hiện đang được giải thích kém. Ví dụ, kỹ thuật của chúng tôi hoạt động kém đối với các mô hình lớn hơn, có thể là do các lớp sau khó giải thích hơn.
.png)
Mặc dù phần lớn các giải thích của chúng tôi đều có điểm kém, chúng tôi tin rằng hiện tại chúng tôi có thể sử dụng các kỹ thuật ML để cải thiện hơn nữa khả năng đưa ra các giải thích. Ví dụ, chúng tôi thấy rằng chúng tôi có thể cải thiện điểm bằng cách:
+ Lặp lại các giải thích. Chúng ta có thể tăng điểm bằng cách yêu cầu GPT-4 đưa ra các phản ví dụ có thể, sau đó sửa đổi các giải thích dựa trên các kích hoạt của chúng.
+ Sử dụng các mô hình lớn hơn để đưa ra lời giải thích. Điểm trung bình tăng lên khi khả năng của mô hình giải thích tăng lên. Tuy nhiên, ngay cả GPT-4 cũng đưa ra lời giải thích tệ hơn con người, cho thấy vẫn còn chỗ để cải thiện.
+ Thay đổi kiến trúc của mô hình được giải thích. Các mô hình đào tạo với các hàm kích hoạt khác nhau đã cải thiện điểm giải thích.
Chúng tôi đang mở mã nguồn các tập dữ liệu và công cụ trực quan hóa của mình để giải thích bằng văn bản GPT-4 cho tất cả 307.200 tế bào thần kinh trong GPT-2, cũng như mã để giải thích và chấm điểm bằng các mô hình có sẵn công khai trên API OpenAI. Chúng tôi hy vọng cộng đồng nghiên cứu sẽ phát triển các kỹ thuật mới để tạo ra các giải thích có điểm cao hơn và các công cụ tốt hơn để khám phá GPT-2 bằng cách sử dụng các giải thích.
Chúng tôi đã tìm thấy hơn 1.000 tế bào thần kinh có lời giải thích đạt ít nhất 0,8 điểm, nghĩa là theo GPT-4, chúng chiếm phần lớn hành vi kích hoạt hàng đầu của tế bào thần kinh. Hầu hết các tế bào thần kinh được giải thích rõ ràng này đều không thú vị lắm. Tuy nhiên, chúng tôi cũng tìm thấy nhiều tế bào thần kinh thú vị mà GPT-4 không hiểu. Chúng tôi hy vọng khi lời giải thích được cải thiện, chúng tôi có thể nhanh chóng khám phá ra sự hiểu biết định tính thú vị về các phép tính mô hình.
Triển vọng
Phương pháp của chúng tôi hiện nay có nhiều hạn chế, chúng tôi hy vọng có thể giải quyết được vấn đề này trong tương lai.
+ Chúng tôi tập trung vào các giải thích ngắn gọn bằng ngôn ngữ tự nhiên, nhưng các tế bào thần kinh có thể có hành vi rất phức tạp mà không thể mô tả một cách ngắn gọn. Ví dụ, các tế bào thần kinh có thể có tính đa nghĩa cao (đại diện cho nhiều khái niệm riêng biệt) hoặc có thể đại diện cho các khái niệm đơn lẻ mà con người không hiểu hoặc không có từ ngữ để diễn tả.
+ Cuối cùng chúng tôi muốn tự động tìm và giải thích toàn bộ mạch thần kinh thực hiện các hành vi phức tạp, với các tế bào thần kinh và các đầu chú ý làm việc cùng nhau. Phương pháp hiện tại của chúng tôi chỉ giải thích hành vi của tế bào thần kinh như một chức năng của đầu vào văn bản gốc, mà không nói gì về các tác động hạ lưu của nó. Ví dụ, một tế bào thần kinh kích hoạt theo chu kỳ có thể chỉ ra từ tiếp theo nên bắt đầu bằng chữ in hoa hoặc tăng bộ đếm câu.
+ Chúng tôi đã giải thích hành vi của các tế bào thần kinh mà không cố gắng giải thích các cơ chế tạo ra hành vi đó. Điều này có nghĩa là ngay cả những lời giải thích có điểm cao cũng có thể không hiệu quả đối với các văn bản không phân phối, vì chúng chỉ đơn giản là mô tả mối tương quan.
+ Quy trình tổng thể của chúng tôi đòi hỏi khá nhiều tính toán.
Chúng tôi rất hào hứng với việc mở rộng và khái quát hóa phương pháp tiếp cận của mình. Cuối cùng, chúng tôi muốn sử dụng các mô hình để hình thành, thử nghiệm và lặp lại các giả thuyết hoàn toàn chung giống như một nhà nghiên cứu khả năng diễn giải.
Cuối cùng, chúng tôi muốn diễn giải các mô hình lớn nhất của mình như một cách để phát hiện các vấn đề về căn chỉnh và an toàn trước và sau khi triển khai. Tuy nhiên, chúng tôi vẫn còn một chặng đường dài trước khi các kỹ thuật này có thể phát hiện ra các hành vi như sự không trung thực.
Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ

Cách đổi Mật khẩu Chat GPT - Hướng dẫn đổi Pass Chat GPT 100% Thành công
Hướng dẫn Cách đăng nhập Chat GPT Nhanh nhất | Có hỗ trợ Miễn phí qua Teamview-Ultraview
Chat GPT Plus là gì? So sánh Chat GPT Plus với Chat GPT Miễn phí
Chat GPT bị giới hạn giải thích vì sao và cách khắc phục
Chat GPT là gì ? Cách đăng Ký Chat GPT Miễn Phí tại Việt Nam