Tính toán phi tuyến tính trong mạng tuyến tính sâu

Chúng tôi đã chứng minh rằng các mạng tuyến tính sâu—được triển khai bằng cách sử dụng số học dấu phẩy động—thực tế không phải là tuyến tính và có thể thực hiện tính toán phi tuyến tính. Chúng tôi đã sử dụng các chiến lược tiến hóa để tìm các tham số trong các mạng tuyến tính khai thác đặc điểm này, cho phép chúng tôi giải quyết các vấn đề không tầm thường.

Mạng nơ-ron bao gồm các chồng lớp tuyến tính theo sau là lớp phi tuyến tính như tanh hoặc đơn vị tuyến tính chỉnh lưu. Nếu không có lớp phi tuyến tính, về mặt lý thuyết, các lớp tuyến tính liên tiếp sẽ tương đương về mặt toán học với một lớp tuyến tính duy nhất. Vì vậy, thật bất ngờ khi số học dấu phẩy động lại phi tuyến tính đủ để tạo ra các mạng sâu có thể đào tạo được.

Các số được máy tính sử dụng không phải là các đối tượng toán học hoàn hảo, mà là các biểu diễn gần đúng sử dụng số bit hữu hạn. Các số dấu phẩy động thường được máy tính sử dụng để biểu diễn các đối tượng toán học. Mỗi số dấu phẩy động được biểu diễn bằng sự kết hợp của một phân số và một số mũ. Trong tiêu chuẩn float32 của IEEE, 23 bit được sử dụng cho phân số và 8 bit cho số mũ, và một bit cho dấu.

Theo các quy ước này và định dạng nhị phân được sử dụng, số khác không bình thường nhỏ nhất (ở dạng nhị phân) là 1.0..0 x 2^-126 , mà chúng ta gọi là min từ nay về sau. Tuy nhiên, số có thể biểu diễn tiếp theo là 1.0..01 x 2^-126 , mà chúng ta có thể viết là min + 0.0..01 x 2^-126 . Rõ ràng là khoảng cách giữa số thứ 2 nhỏ hơn khoảng cách giữa 0 và min theo hệ số 2^20. Trong float32, khi các số nhỏ hơn số có thể biểu diễn nhỏ nhất, chúng sẽ được ánh xạ thành số không. Do 'tràn' này, xung quanh số không, mọi phép tính liên quan đến số dấu phẩy động đều trở nên phi tuyến tính.

Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ

Một ngoại lệ cho những hạn chế này là số không bình thường, có thể bị vô hiệu hóa trên một số phần cứng máy tính. Trong khi GPU và cuBLAS có denormals được bật theo mặc định, TensorFlow xây dựng tất cả các nguyên hàm của nó với denormals tắt (với cờ ftz=true được đặt). Điều này có nghĩa là bất kỳ phép nhân không phải ma trận nào được viết trong TensorFlow đều có tính phi tuyến tính ngầm định theo sau (với điều kiện là quy mô tính toán gần 1e-38).

Vì vậy, mặc dù nhìn chung sự khác biệt giữa bất kỳ số "toán học" nào và biểu diễn số thực thông thường của chúng là nhỏ, nhưng xung quanh số 0 lại có một khoảng cách lớn và lỗi xấp xỉ có thể rất đáng kể.

Điều này có thể dẫn đến một số hiệu ứng kỳ lạ khi các quy tắc toán học quen thuộc không còn áp dụng được nữa. Ví dụ, (Một+b)×c( Một+b )×ctrở nên không bằng một×c+b× c× c+b× c

Ví dụ nếu bạn thiết lập Một=0,4×tôiTôiN Một=0,4×phút, b=0,5×tôiTôiNb=0,5×phút, Và c=1/ tôiTôiNc=1/ phút.

Sau đó: (Một+b)×c=(0,4×tôiTôiN+0,5×tôiTôiN)×1/tôiTôiN=(0+0)×1/tôiTôiN=0( Một+b )×c=( 0,4×phút+0,5×phút )×1/ phút=( 0+0 )×1/ phút=0. Tuy nhiên: (Một×c)+(b×c)=0,4×tôiTôiN/tôiTôiN+0,5×tôiTôiN×1/tôiTôiN= 0,9( Một×c )+( b×c )=0,4×phút / phút+0,5×phút×1/ phút= 0,9.

Trong một ví dụ khác, chúng ta có thể thiết lập Một=2,5×tôiTôiNMột=2,5×phút, b=−1.6×tôiTôiNb=− 1,6×phút, Và c=1× tôiTôiN c=1× phút.

Sau đó: (Một+b)+c=(0)+1×tôiTôiN=tôiTôiN ( Một+b )+c=( 0 )+1×phút=phút. Tuy nhiên: (b+c)+Một=(0×tôiTôiN)+2,5×tôiTôiN=2,5× tôiTôiN( b+c )+Một=( 0×phút )+2,5×phút=2,5× phút.

Ở quy mô nhỏ nhất này, phép toán cộng cơ bản đã trở nên phi tuyến tính!

Khai thác tính phi tuyến tính với các chiến lược tiến hóa

Chúng tôi muốn biết liệu tính phi tuyến tính vốn có này có thể được khai thác như một tính phi tuyến tính tính toán hay không, vì điều này sẽ cho phép các mạng tuyến tính sâu thực hiện các phép tính phi tuyến tính. Thách thức là các thư viện phân biệt hiện đại không nhận ra các tính phi tuyến tính này ở quy mô nhỏ nhất. Do đó, sẽ rất khó hoặc không thể đào tạo một mạng nơ-ron để khai thác chúng thông qua truyền ngược.

Chúng ta có thể sử dụng các chiến lược tiến hóa (ES) để ước tính độ dốc mà không cần phải dựa vào phép phân biệt biểu tượng. Khi sử dụng ES, chúng ta thực sự có thể khai thác hành vi gần bằng không của float32 như một phi tuyến tính tính toán. Khi được đào tạo trên MNIST, một mạng tuyến tính sâu được đào tạo thông qua truyền ngược đạt được độ chính xác đào tạo là 94% và độ chính xác thử nghiệm là 92%. Ngược lại, cùng một mạng tuyến tính có thể đạt được độ chính xác đào tạo >99% và độ chính xác thử nghiệm là 96,7% khi được đào tạo bằng ES và đảm bảo rằng các kích hoạt đủ nhỏ để nằm trong phạm vi phi tuyến tính của float32. Sự gia tăng hiệu suất đào tạo này là do ES khai thác các phi tuyến tính trong biểu diễn float32. Các phi tuyến tính mạnh mẽ này cho phép bất kỳ lớp nào tạo ra các tính năng mới là các tổ hợp phi tuyến tính của các tính năng cấp thấp hơn. Sau đây là cấu trúc mạng:

con trăn

12345678910111213141516171819

1

x = tf.placeholder(dtype=tf.float32, shape=[batch_size,784])

2

y = tf.placeholder(dtype=tf.float32, shape=[batch_size,10])

3

4

w1 = tf.Variable(np.random.normal(scale=np.sqrt(2./784),size=[784,512]).astype(np.float32))

5

b1 = tf.Variable(np.zeros(512,dtype=np.float32))

6

w2 = tf.Variable(np.random.normal(scale=np.sqrt(2./512),size=[512,512]).astype(np.float32))

7

b2 = tf.Variable(np.zeros(512,dtype=np.float32))

8

w3 = tf.Variable(np.random.normal(scale=np.sqrt(2./512),size=[512,10]).astype(np.float32))

9

b3 = tf.Variable(np.zeros(10,dtype=np.float32))

10

11

params = [w1,b1,w2,b2,w3,b3]

12

nr_params = sum([np.prod(p.get_shape().as_list()) for p in params])

13

scaling = 2**125

14

15

def get_logits(par):

16

h1 = tf.nn.bias_add(tf.matmul(x , par[0]), par[1]) / scaling

17

h2 = tf.nn.bias_add(tf.matmul(h1, par[2]) , par[3] / scaling)

18

o = tf.nn.bias_add(tf.matmul(h2, par[4]), par[5]/ scaling)*scaling

19

return o

Ngoài MNIST, chúng tôi nghĩ rằng các thí nghiệm thú vị khác có thể mở rộng công trình này sang mạng nơ-ron hồi quy hoặc khai thác tính toán phi tuyến tính để cải thiện các tác vụ học máy phức tạp như mô hình hóa ngôn ngữ và dịch thuật. Chúng tôi rất vui mừng được khám phá khả năng này với các nhà nghiên cứu đồng nghiệp của mình.

Họ tên (*)	Số điện thoại (*)
Email (*)	Dịch vụ

Tính toán phi tuyến tính trong mạng tuyến tính sâu

Lý lịch

Khai thác tính phi tuyến tính với các chiến lược tiến hóa

Bài liên quan

Hệ thống phân cấp hướng dẫn: Đào tạo LLM để ưu tiên các…

Trình Tạo Bài Hát Trên Cửa Hàng GPT: Công Cụ Mới Mẻ Cho…

Các mô hình tạo video như trình mô phỏng thế giới

60+ Lời nhắc ChatGPT cho các bài đăng hấp dẫn trên mạng xã…

Cải thiện lý luận toán học bằng cách giám sát quy trình

Liệu ChatGPT có thay thế được người viết nội dung không?

Đầu vào dân chủ cho AI

AI trong kinh doanh 2025: Vai trò của ChatGPT trong những đổi mới…

GPT là GPT: Một cái nhìn ban đầu về tiềm năng tác động…

Cách đổi Mật khẩu Chat GPT - Hướng dẫn đổi Pass Chat GPT 100% Thành công

Hướng dẫn Cách đăng nhập Chat GPT Nhanh nhất | Có hỗ trợ Miễn phí qua Teamview-Ultraview

Chat GPT Plus là gì? So sánh Chat GPT Plus với Chat GPT Miễn phí

Chat GPT bị giới hạn giải thích vì sao và cách khắc phục

Chat GPT là gì ? Cách đăng Ký Chat GPT Miễn Phí tại Việt Nam

AI trong kinh doanh 2025: Vai trò của ChatGPT trong những đổi mới trong tương lai

GPT là GPT: Một cái nhìn ban đầu về tiềm năng tác động của các mô hình ngôn ngữ lớn lên thị trường lao động

Có gì mới trong ChatGPT vào năm 2025?

GPT-4

ChatGPT đang thay đổi cách chúng ta viết?

Point-E: Một hệ thống tạo ra các đám mây điểm 3D từ các lời nhắc phức tạp

Chatgpt sẽ ảnh hưởng đến SEO như thế nào

Luật mở rộng cho mô hình phần thưởng tối ưu hóa quá mức

Trò chuyện GPT-4 - Tất cả những gì bạn cần biết về AI mạnh mẽ này

Giới thiệu Whisper

Chế độ nghiên cứu sâu ChatGPT là gì?

Đào tạo hiệu quả các mô hình ngôn ngữ để điền vào giữa

ChatGPT 2025: AI Thế Hệ Mới Sẵn Sàng Thay Đổi Ngành Viết Nội Dung

DALL·E 2 biện pháp giảm thiểu trước khi đào tạo

Cập nhật Big ChatGPT năm 2025: Cách mạng hóa tiếp thị kỹ thuật số với AI tiên tiến

Học chơi Minecraft với Video PreTraining

Chat GPT

Trí tuệ nhân tạo AI

Đăng ký tư vấn