Chúng tôi giới thiệu Jukebox, một mạng nơ-ron tạo ra âm nhạc, bao gồm cả tiếng hát thô sơ, dưới dạng âm thanh thô trong nhiều thể loại và phong cách nghệ sĩ. Chúng tôi phát hành trọng số và mã mô hình, cùng với một công cụ để khám phá các mẫu đã tạo.
Mẫu được chọn lọc
Được cung cấp thể loại, nghệ sĩ và lời bài hát làm đầu vào, Jukebox sẽ tạo ra một mẫu nhạc mới được tạo từ đầu. Dưới đây, chúng tôi sẽ giới thiệu một số mẫu nhạc yêu thích của mình.
Động lực và công việc trước đây
Việc tạo ra âm nhạc tự động có từ hơn nửa thế kỷ trước. Một cách tiếp cận nổi bật là tạo ra âm nhạc theo biểu tượng dưới dạng một bản nhạc piano roll, trong đó chỉ định thời gian, cao độ, tốc độ và nhạc cụ của từng nốt nhạc sẽ được chơi. Điều này đã dẫn đến những kết quả ấn tượng như tạo ra các hợp xướng Bach, bản nhạc đa âm với nhiều nhạc cụ, cũng như các bản nhạc dài một phút.
Nhưng các trình tạo biểu tượng có những hạn chế—chúng không thể nắm bắt được giọng nói của con người hoặc nhiều âm sắc, động lực và khả năng biểu đạt tinh tế hơn vốn là yếu tố cần thiết cho âm nhạc. Một cách tiếp cận khác là mô hình hóa âm nhạc trực tiếp dưới dạng âm thanh thô. Việc tạo nhạc ở cấp độ âm thanh là một thách thức vì các chuỗi rất dài. Một bài hát thông thường dài 4 phút ở chất lượng CD (44 kHz, 16 bit) có hơn 10 triệu bước thời gian. Để so sánh, GPT-2 có 1.000 bước thời gian và OpenAI Five thực hiện hàng chục nghìn bước thời gian cho mỗi trò chơi. Do đó, để học ngữ nghĩa cấp cao của âm nhạc, một mô hình sẽ phải xử lý các phụ thuộc cực kỳ xa.
Một cách để giải quyết vấn đề đầu vào dài là sử dụng bộ mã hóa tự động nén âm thanh thô thành không gian có chiều thấp hơn bằng cách loại bỏ một số bit thông tin không liên quan về mặt nhận thức. Sau đó, chúng ta có thể đào tạo một mô hình để tạo âm thanh trong không gian nén này và lấy mẫu trở lại không gian âm thanh thô.
Chúng tôi chọn làm việc về âm nhạc vì chúng tôi muốn tiếp tục mở rộng ranh giới của các mô hình tạo sinh. Công việc trước đây của chúng tôi trên MuseNet đã khám phá việc tổng hợp âm nhạc dựa trên lượng lớn dữ liệu MIDI. Bây giờ trong âm thanh thô, các mô hình của chúng tôi phải học cách xử lý tính đa dạng cao cũng như cấu trúc phạm vi rất dài và phạm vi âm thanh thô đặc biệt không khoan nhượng với các lỗi về thời gian ngắn, trung bình hoặc dài hạn.
Tiếp cận
Nén nhạc thành các mã rời rạc
Mô hình bộ mã hóa tự động của Jukebox nén âm thanh thành một không gian rời rạc, sử dụng phương pháp dựa trên lượng tử hóa được gọi là VQ-VAE. VQ-VAE phân cấp có thể tạo ra các bản nhạc cụ ngắn từ một vài bộ nhạc cụ, tuy nhiên chúng bị sụp đổ phân cấp do sử dụng các bộ mã hóa liên tiếp kết hợp với bộ giải mã tự hồi quy. Một biến thể đơn giản hóa được gọi là VQ-VAE-2 tránh được những vấn đề này bằng cách chỉ sử dụng bộ mã hóa và bộ giải mã truyền thẳng, và chúng cho thấy kết quả ấn tượng trong việc tạo ra hình ảnh có độ trung thực cao.
- Tài khoản ChatGPT 4 với nhiều ưu đãi hấp dẫn!
Chúng tôi lấy cảm hứng từ VQ-VAE-2 và áp dụng cách tiếp cận của họ vào âm nhạc. Chúng tôi sửa đổi kiến trúc của họ như sau:
+ Để giảm thiểu tình trạng sụp đổ sổ mã thường gặp ở các mô hình VQ-VAE, chúng tôi sử dụng khởi động lại ngẫu nhiên, trong đó chúng tôi đặt lại ngẫu nhiên một vectơ sổ mã thành một trong các trạng thái ẩn được mã hóa bất cứ khi nào mức sử dụng của nó giảm xuống dưới ngưỡng.
+ Để tối đa hóa việc sử dụng các cấp độ trên, chúng tôi sử dụng các bộ giải mã riêng biệt và tái cấu trúc độc lập dữ liệu đầu vào từ các mã của từng cấp độ.
+ Để cho phép mô hình tái tạo tần số cao dễ dàng, chúng tôi thêm một tổn thất phổ để hạn chế chuẩn mực về sự khác biệt giữa phổ đồ đầu vào và phổ đồ tái tạo.
Chúng tôi sử dụng ba mức trong VQ-VAE của mình, được hiển thị bên dưới, nén âm thanh thô 44kHz lần lượt là 8x, 32x và 128x, với kích thước sổ mã là 2048 cho mỗi mức. Việc lấy mẫu xuống này làm mất nhiều chi tiết âm thanh và nghe có vẻ nhiễu đáng kể khi chúng ta đi xuống các mức thấp hơn. Tuy nhiên, nó vẫn giữ lại thông tin cần thiết về cao độ, âm sắc và âm lượng của âm thanh.
Tạo mã bằng cách sử dụng bộ chuyển đổi
Tiếp theo, chúng tôi đào tạo các mô hình trước có mục tiêu là tìm hiểu sự phân phối các mã nhạc được mã hóa bởi VQ-VAE và tạo ra nhạc trong không gian rời rạc nén này. Giống như VQ-VAE, chúng tôi có ba cấp độ trước: một cấp độ trước cao nhất tạo ra các mã nén nhiều nhất và hai cấp độ trước lấy mẫu tăng tạo ra các mã nén ít hơn có điều kiện ở trên.
Các mô hình tiên nghiệm cấp cao nhất mô phỏng cấu trúc âm nhạc tầm xa và các mẫu được giải mã từ cấp độ này có chất lượng âm thanh thấp hơn nhưng nắm bắt được ngữ nghĩa cấp cao như tiếng hát và giai điệu. Các mô hình tiên nghiệm lấy mẫu ở giữa và dưới cùng bổ sung các cấu trúc âm nhạc cục bộ như âm sắc, cải thiện đáng kể chất lượng âm thanh.
Chúng tôi đào tạo những mô hình này dưới dạng mô hình hồi quy tự động bằng cách sử dụng một biến thể đơn giản hóa của Sparse Transformers. Mỗi mô hình này có 72 lớp chú ý bản thân được phân tích thành nhân tử trên bối cảnh gồm 8192 mã, tương ứng với khoảng 24 giây, 6 giây và 1,5 giây âm thanh thô ở mức trên cùng, giữa và dưới cùng.
Khi tất cả các dữ liệu trước đã được đào tạo, chúng ta có thể tạo mã từ cấp cao nhất, nâng cấp chúng bằng bộ nâng cấp mẫu và giải mã chúng trở lại không gian âm thanh thô bằng bộ giải mã VQ-VAE để lấy mẫu các bài hát mới.
Bộ dữ liệu
Để đào tạo mô hình này, chúng tôi đã thu thập dữ liệu trên web để tuyển chọn một tập dữ liệu mới gồm 1,2 triệu bài hát (trong đó có 600.000 bài hát bằng tiếng Anh), kết hợp với lời bài hát và siêu dữ liệu tương ứng từ LyricWiki (mở trong cửa sổ mới). Siêu dữ liệu bao gồm nghệ sĩ, thể loại album và năm của bài hát, cùng với tâm trạng chung hoặc từ khóa danh sách phát liên quan đến từng bài hát. Chúng tôi đào tạo trên âm thanh thô 32 bit, 44,1 kHz và thực hiện tăng cường dữ liệu bằng cách trộn ngẫu nhiên các kênh phải và trái để tạo ra âm thanh đơn âm.
Nghệ sĩ và thể loại điều kiện
Bộ biến đổi cấp cao nhất được đào tạo về nhiệm vụ dự đoán các mã thông báo âm thanh nén. Chúng ta có thể cung cấp thông tin bổ sung, chẳng hạn như nghệ sĩ và thể loại cho mỗi bài hát. Điều này có hai lợi thế: thứ nhất, nó làm giảm entropy của dự đoán âm thanh, do đó mô hình có thể đạt được chất lượng tốt hơn trong bất kỳ phong cách cụ thể nào; thứ hai, tại thời điểm tạo, chúng ta có thể điều khiển mô hình để tạo theo phong cách mà chúng ta lựa chọn.
Hình ảnh t-SNE bên dưới cho thấy cách mô hình học, theo cách không có sự giám sát, để nhóm các nghệ sĩ và thể loại tương tự lại gần nhau, và cũng tạo ra một số mối liên hệ đáng ngạc nhiên như Jennifer Lopez rất thân thiết với Dolly Parton!
Lời bài hát điều kiện
Ngoài việc điều chỉnh theo nghệ sĩ và thể loại, chúng ta có thể cung cấp thêm ngữ cảnh tại thời điểm đào tạo bằng cách điều chỉnh mô hình theo lời bài hát. Một thách thức đáng kể là thiếu một tập dữ liệu được căn chỉnh tốt: chúng ta chỉ có lời bài hát ở cấp độ bài hát mà không căn chỉnh với nhạc, và do đó đối với một đoạn âm thanh nhất định, chúng ta không biết chính xác phần nào của lời bài hát (nếu có) xuất hiện. Chúng ta cũng có thể có các phiên bản bài hát không khớp với phiên bản lời bài hát, như có thể xảy ra nếu một bài hát nhất định được trình bày bởi một số nghệ sĩ khác nhau theo những cách hơi khác nhau. Ngoài ra, ca sĩ thường lặp lại các cụm từ hoặc thay đổi lời bài hát theo những cách không phải lúc nào cũng được ghi lại trong lời bài hát đã viết.
Để khớp các phần âm thanh với lời bài hát tương ứng, chúng tôi bắt đầu bằng một phương pháp tìm kiếm đơn giản, căn chỉnh các ký tự của lời bài hát theo chiều dài tuyến tính của mỗi bài hát và truyền một cửa sổ ký tự có kích thước cố định tập trung xung quanh phân đoạn hiện tại trong quá trình đào tạo. Mặc dù chiến lược căn chỉnh tuyến tính đơn giản này hoạt động khá tốt, nhưng chúng tôi thấy rằng nó không hiệu quả đối với một số thể loại có lời bài hát nhanh, chẳng hạn như nhạc hip hop. Để giải quyết vấn đề này, chúng tôi sử dụng Spleeter để trích xuất giọng hát từ mỗi bài hát và chạy NUS AutoLyricsAlign [ ^reference-33] trên các giọng hát đã trích xuất để có được sự căn chỉnh chính xác theo cấp độ từ của lời bài hát. Chúng tôi đã chọn một cửa sổ đủ lớn để lời bài hát thực tế có khả năng cao nằm trong cửa sổ.
Để chú ý đến lời bài hát, chúng tôi thêm một bộ mã hóa để tạo ra biểu diễn cho lời bài hát và thêm các lớp chú ý sử dụng các truy vấn từ bộ giải mã nhạc để chú ý đến các khóa và giá trị từ bộ mã hóa lời bài hát. Sau khi đào tạo, mô hình học cách căn chỉnh chính xác hơn.
Hạn chế
Trong khi Jukebox đại diện cho một bước tiến về chất lượng âm nhạc, tính mạch lạc, độ dài mẫu âm thanh và khả năng tùy chỉnh theo nghệ sĩ, thể loại và lời bài hát, thì vẫn có một khoảng cách đáng kể giữa các thế hệ này và âm nhạc do con người sáng tạo.
Ví dụ, trong khi các bài hát được tạo ra cho thấy sự gắn kết âm nhạc cục bộ, tuân theo các mẫu hợp âm truyền thống và thậm chí có thể có các đoạn độc tấu ấn tượng, chúng ta không nghe thấy các cấu trúc âm nhạc lớn hơn quen thuộc như điệp khúc lặp lại. Quy trình hạ mẫu và tăng mẫu của chúng tôi tạo ra tiếng ồn có thể nhận biết được. Cải thiện VQ-VAE để các mã của nó nắm bắt được nhiều thông tin âm nhạc hơn sẽ giúp giảm thiểu điều này. Các mô hình của chúng tôi cũng chậm lấy mẫu, vì bản chất tự hồi quy của việc lấy mẫu. Phải mất khoảng 9 giờ để kết xuất hoàn toàn một phút âm thanh thông qua các mô hình của chúng tôi và do đó chúng vẫn chưa thể được sử dụng trong các ứng dụng tương tác. Sử dụng các kỹ thuật để chắt lọc mô hình thành một trình lấy mẫu song song có thể tăng tốc đáng kể tốc độ lấy mẫu. Cuối cùng, hiện tại chúng tôi đang đào tạo bằng lời bài hát tiếng Anh và chủ yếu là nhạc phương Tây, nhưng trong tương lai, chúng tôi hy vọng sẽ đưa vào các bài hát từ các ngôn ngữ khác và các khu vực khác trên thế giới.
Hướng đi trong tương lai
Nhóm âm thanh của chúng tôi đang tiếp tục làm việc để tạo ra các mẫu âm thanh được điều kiện hóa trên các loại thông tin mồi khác nhau. Đặc biệt, chúng tôi đã thấy thành công ban đầu khi điều kiện hóa trên các tệp MIDI và tệp gốc. Sau đây là ví dụ về mẫu âm thanh thô(mở trong cửa sổ mới) có điều kiện trên các mã thông báo MIDI (mở trong cửa sổ mới). Chúng tôi hy vọng điều này sẽ cải thiện tính nhạc của các mẫu (theo cách mà việc điều chỉnh lời bài hát cải thiện khả năng ca hát), và đây cũng sẽ là cách trao cho các nhạc sĩ nhiều quyền kiểm soát hơn đối với các thế hệ. Chúng tôi mong đợi sự hợp tác giữa con người và mô hình sẽ là một không gian sáng tạo ngày càng thú vị. Nếu bạn hào hứng làm việc với chúng tôi về những vấn đề này, chúng tôi đang tuyển dụng .
Khi mô hình tạo ra trên nhiều lĩnh vực tiếp tục phát triển, chúng tôi cũng đang tiến hành nghiên cứu các vấn đề như sự thiên vị (mở trong cửa sổ mới) và quyền sở hữu trí tuệ (mở trong cửa sổ mới), và đang hợp tác với những người làm việc trong các lĩnh vực mà chúng tôi phát triển các công cụ. Để hiểu rõ hơn về những tác động trong tương lai đối với cộng đồng âm nhạc, chúng tôi đã chia sẻ Jukebox với một nhóm 10 nhạc sĩ ban đầu từ nhiều thể loại khác nhau để thảo luận về phản hồi của họ về tác phẩm này. Mặc dù Jukebox là một kết quả nghiên cứu thú vị, nhưng những nhạc sĩ này không thấy nó có thể áp dụng ngay vào quá trình sáng tạo của họ do một số hạn chế hiện tại của nó . Chúng tôi đang kết nối với cộng đồng sáng tạo rộng lớn hơn vì chúng tôi nghĩ rằng công việc sáng tạo trên văn bản, hình ảnh và âm thanh sẽ tiếp tục được cải thiện. Nếu bạn quan tâm đến việc trở thành cộng tác viên sáng tạo để giúp chúng tôi xây dựng các công cụ hữu ích hoặc các tác phẩm nghệ thuật mới trong các lĩnh vực này, vui lòng cho chúng tôi biết (mở trong cửa sổ mới)!
Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ