.png)
Chúng tôi đã phát hiện ra rằng thang đo độ nhiễu gradient, một số liệu thống kê đơn giản, dự đoán khả năng song song hóa của quá trình đào tạo mạng nơ-ron trên nhiều tác vụ. Vì các tác vụ phức tạp có xu hướng có độ nhiễu gradient lớn hơn, nên kích thước lô ngày càng lớn có khả năng trở nên hữu ích trong tương lai, loại bỏ một giới hạn tiềm ẩn đối với sự phát triển hơn nữa của các hệ thống AI. Nói rộng hơn, những kết quả này cho thấy rằng đào tạo mạng nơ-ron không cần phải được coi là một nghệ thuật bí ẩn, mà có thể được nghiêm ngặt hóa và hệ thống hóa.
- Tài khoản ChatGPT 4 chính hãng giá rẻ với nhiều ưu đãi hấp dẫn!
Trong vài năm trở lại đây, các nhà nghiên cứu AI đã ngày càng thành công trong việc tăng tốc quá trình đào tạo mạng nơ-ron thông qua song song dữ liệu, chia nhỏ các lô dữ liệu lớn trên nhiều máy. Các nhà nghiên cứu đã sử dụng thành công các lô có kích thước hàng chục nghìn để phân loại hình ảnh (mở trong cửa sổ mới) và mô hình ngôn ngữ(mở trong cửa sổ mới)và thậm chí hàng triệu cho các tác nhân đời thực (mở trong cửa sổ mới) chơi trò chơi Dota 2. Những lô lớn này cho phép tăng lượng tính toán được đổ hiệu quả vào quá trình đào tạo một mô hình duy nhất và là yếu tố quan trọng thúc đẩy sự tăng trưởng nhanh chóng trong tính toán đào tạo AI (mở trong cửa sổ mới). Tuy nhiên, kích thước lô quá lớn cho thấy lợi nhuận thuật toán giảm nhanh chóng và không rõ tại sao các giới hạn này lại lớn hơn đối với một số tác vụ và nhỏ hơn đối với các tác vụ khác.
Chúng tôi đã phát hiện ra rằng bằng cách đo thang độ nhiễu gradient, một thống kê đơn giản định lượng tỷ lệ tín hiệu trên nhiễu của các gradient mạng, chúng tôi có thể dự đoán gần đúng kích thước lô hữu ích tối đa. Về mặt kinh nghiệm, thang độ nhiễu đo lường sự thay đổi trong dữ liệu như mô hình thấy (ở một giai đoạn nhất định trong quá trình đào tạo). Khi thang độ nhiễu nhỏ, việc xem xét nhiều dữ liệu song song sẽ nhanh chóng trở nên thừa thãi, trong khi khi thang độ nhiễu lớn, chúng ta vẫn có thể học được nhiều điều từ các lô dữ liệu khổng lồ.
Loại thống kê này được sử dụng rộng rãi cho mẫu (mở trong cửa sổ mới) kích cỡ (mở trong cửa sổ mới) lựa chọn (mở trong cửa sổ mới) và đã được đề xuất (mở trong cửa sổ mới) để sử dụng (mở trong cửa sổ mới) sâu thẳm (mở trong cửa sổ mới) học hỏi (mở trong cửa sổ mới), nhưng chưa được đo lường hoặc áp dụng một cách có hệ thống cho các lần chạy đào tạo hiện đại. Chúng tôi đã xác minh dự đoán này cho nhiều tác vụ học máy được hiển thị trong hình trên, bao gồm nhận dạng hình ảnh, mô hình ngôn ngữ, trò chơi Atari và Dota. Cụ thể, chúng tôi đã chạy đào tạo ở nhiều kích thước lô khác nhau (điều chỉnh tốc độ học riêng cho từng lô) cho tất cả các tác vụ này và so sánh tốc độ tăng trong quá trình đào tạo với tốc độ mà thang độ nhiễu dự đoán sẽ xảy ra. Vì các kích thước lô lớn thường yêu cầu điều chỉnh cẩn thận và tốn kém hoặc lịch trình tốc độ học đặc biệt để có hiệu quả, nên việc biết trước giới hạn trên sẽ mang lại lợi thế thực tế đáng kể trong quá trình đào tạo các mô hình mới.
Chúng tôi thấy hữu ích khi hình dung kết quả của các thí nghiệm này theo khía cạnh đánh đổi giữa thời gian tường để đào tạo và tổng số lượng tính toán lớn mà chúng tôi sử dụng để thực hiện đào tạo (tỷ lệ thuận với chi phí đô la). Ở kích thước lô rất nhỏ, việc nhân đôi lô cho phép chúng tôi đào tạo trong một nửa thời gian mà không cần sử dụng thêm tính toán (chúng tôi chạy gấp đôi số chip trong một nửa thời gian). Ở kích thước lô rất lớn, song song hóa nhiều hơn không dẫn đến đào tạo nhanh hơn. Có một "vết cong" trên đường cong ở giữa và thang độ nhiễu gradient dự đoán vị trí xảy ra vết cong đó.
.png)
Chúng tôi tạo ra những đường cong này bằng cách thiết lập một mức hiệu suất (ví dụ như điểm 1000 trong trò chơi Beam Rider của Atari) và xem mất bao lâu để đào tạo đạt được hiệu suất đó ở các kích thước lô khác nhau. Kết quả khớp với dự đoán của mô hình của chúng tôi khá chặt chẽ, trên nhiều giá trị khác nhau của mục tiêu hiệu suất.
Các mẫu trong thang độ nhiễu gradient
Chúng tôi đã quan sát thấy một số mô hình trong thang độ nhiễu gradient có thể cung cấp manh mối về tương lai của đào tạo AI.
Đầu tiên, trong các thí nghiệm của chúng tôi, thang độ nhiễu thường tăng theo một cấp độ hoặc hơn trong quá trình đào tạo. Theo trực giác, điều này có nghĩa là mạng học các tính năng "rõ ràng" hơn của tác vụ ngay từ đầu trong quá trình đào tạo và học các tính năng phức tạp hơn sau đó. Ví dụ, trong trường hợp của bộ phân loại hình ảnh, trước tiên mạng có thể học cách xác định các tính năng quy mô nhỏ như các cạnh hoặc kết cấu có trong hầu hết các hình ảnh, trong khi chỉ sau đó mới ghép các phần này lại với nhau thành các khái niệm tổng quát hơn như mèo và chó. Để thấy được đầy đủ các cạnh hoặc kết cấu, mạng chỉ cần nhìn thấy một số lượng nhỏ hình ảnh, do đó thang độ nhiễu nhỏ hơn; khi mạng biết nhiều hơn về các đối tượng lớn hơn, nó có thể xử lý nhiều hình ảnh hơn cùng một lúc mà không thấy dữ liệu trùng lặp.
Chúng tôi thấy một số dấu hiệu sơ bộ (mở trong cửa sổ mới) rằng hiệu ứng tương tự vẫn đúng trên các mô hình khác nhau trên cùng một tập dữ liệu—các mô hình mạnh hơn có thang độ nhiễu gradient cao hơn, nhưng chỉ vì chúng đạt được mức mất mát thấp hơn. Do đó, có một số bằng chứng cho thấy thang độ nhiễu tăng lên trong quá trình đào tạo không chỉ là hiện tượng hội tụ, mà xảy ra vì mô hình trở nên tốt hơn. Nếu điều này là đúng, thì chúng ta mong đợi các mô hình mạnh hơn trong tương lai sẽ có thang độ nhiễu cao hơn và do đó có thể song song hóa nhiều hơn.
Thứ hai, các nhiệm vụ khó hơn về mặt chủ quan cũng dễ thực hiện song song hơn. Trong bối cảnh học có giám sát, có sự tiến triển rõ ràng từ MNIST, đến SVHN, đến ImageNet. Trong bối cảnh học tăng cường, có sự tiến triển rõ ràng từ Atari Pong đến Dota 1v1(mở trong cửa sổ mới) đến Dota 5v5(mở trong cửa sổ mới), với kích thước lô tối ưu khác nhau theo hệ số hơn 10.000. Do đó, khi AI tiến tới các nhiệm vụ mới và khó hơn, chúng tôi mong đợi các mô hình có thể chấp nhận kích thước lô lớn hơn.
Ý nghĩa
Mức độ song song dữ liệu ảnh hưởng đáng kể đến tốc độ phát triển của khả năng AI. Đào tạo nhanh hơn giúp tạo ra các mô hình mạnh mẽ hơn và đẩy nhanh quá trình nghiên cứu thông qua thời gian lặp lại nhanh hơn.
Trong một nghiên cứu trước đó, AI và Compute (mở trong cửa sổ mới), chúng tôi quan sát thấy rằng khả năng tính toán được sử dụng để đào tạo các mô hình ML lớn nhất tăng gấp đôi sau mỗi 3,5 tháng và chúng tôi lưu ý rằng xu hướng này được thúc đẩy bởi sự kết hợp giữa kinh tế (sự sẵn sàng chi tiền cho khả năng tính toán) và khả năng song song hóa đào tạo của thuật toán. Yếu tố sau (khả năng song song hóa thuật toán) khó dự đoán hơn và giới hạn của nó vẫn chưa được hiểu rõ, nhưng kết quả hiện tại của chúng tôi thể hiện một bước tiến tới việc hệ thống hóa và định lượng nó. Đặc biệt, chúng tôi có bằng chứng cho thấy các nhiệm vụ khó hơn và các mô hình mạnh hơn trên cùng một nhiệm vụ sẽ cho phép song song hóa dữ liệu triệt để hơn so với những gì chúng tôi đã thấy cho đến nay, cung cấp động lực chính cho sự tăng trưởng theo cấp số nhân nhanh liên tục trong khả năng tính toán đào tạo. (Và điều này thậm chí không cần xem xét những tiến bộ gần đây trong song song hóa mô hình (mở trong cửa sổ mới), điều này có thể cho phép song song hóa sâu hơn nữa trên cơ sở song song hóa dữ liệu).
Sự phát triển liên tục của máy tính đào tạo và cơ sở thuật toán có thể dự đoán được của nó càng làm nổi bật khả năng tăng nhanh năng lực AI trong vài năm tới và nhấn mạnh tính cấp thiết của nghiên cứu nhằm đảm bảo các hệ thống như vậy an toàn(mở trong cửa sổ mới) và chúng được sử dụng một cách có trách nhiệm (mở trong cửa sổ mới). Một thách thức cốt lõi của chính sách AI là tìm ra cách sử dụng các biện pháp như thế này để đưa ra dự đoán về đặc điểm của các hệ thống AI trong tương lai và sử dụng kiến thức này để hình thành các chính sách cho phép xã hội tối đa hóa lợi ích và giảm thiểu nhược điểm của các công nghệ này.
OpenAI cam kết tiếp tục tiến hành các phân tích nghiêm ngặt để giúp chúng ta có cái nhìn sâu sắc về tương lai của AI, cũng như hành động để giải quyết các vấn đề mà các phân tích này nêu ra.
Nếu bạn muốn nghiên cứu "Khoa học AI" và giúp chúng tôi biến quá trình đào tạo mạng nơ-ron thành quá trình dựa trên dữ liệu, hãy cân nhắc nộp đơn xin việc tại OpenAI .
Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ!

Cách đổi Mật khẩu Chat GPT - Hướng dẫn đổi Pass Chat GPT 100% Thành công
Hướng dẫn Cách đăng nhập Chat GPT Nhanh nhất | Có hỗ trợ Miễn phí qua Teamview-Ultraview
Chat GPT Plus là gì? So sánh Chat GPT Plus với Chat GPT Miễn phí
Chat GPT bị giới hạn giải thích vì sao và cách khắc phục
Chat GPT là gì ? Cách đăng Ký Chat GPT Miễn Phí tại Việt Nam