以AI文本生成圖像聞名的Stability AI正式進入AI音樂領域
編譯:袁永興
以AI進行文本轉圖像生成器而聞名的Stability AI已進入AI音樂領域。這家總部位於倫敦的公司宣布推出“Stable Audio”AI音樂生成器,相當於音樂上的Stable Diffusion(圖像生成工具),去年該公司因此成為人工智慧獨角獸公司。新的文本轉音樂生成器的工作原理,同樣是以用戶輸入一系列的文字敘述並將其轉換為音樂。
其實一年前,Stability AI便發布了Dance Diffusion,該模型可以根據文本描述生成新的音樂與音效。這是Stability AI首次涉足生成音訊領域,它代表著該公司對AI音樂創作工具進行有意義的投資,而且展現出了濃厚的興趣。如今,在投資者要求將超過1億美元的資本轉化為創收產品的壓力下,Stability A重新大力投入音訊領域。
隨著Stable Audio的發布,Stability AI聲稱這是第一個能夠透過潛在擴散技術,創建用於商業用途的高質量44.1 Khz音樂的工具。所謂“潛在擴散AI架構”(Latent Diffusion Ai Architecture)是指一種特定的AI架構或技術,通常用於生成具有某種特定特質或特徵的數據、圖像或音訊。這種架構基於潛在變數(Latent Variables),而這些變數可被調整以生成不同的數據。這種方法通常用於創建具有高控性和真實感的合成音訊或圖像。
相比之前發布的音樂生成工具,Stable Audio經過音訊元數據以及音訊文件的持續時間,開始進行訓練的基礎模型大約有12億個參數,能對合成音訊的內容和長度進行更大程度的控制 ,不同於其它的聲音擴散模型在較長的音檔隨機裁剪區塊進行訓練。
好比輸入“後搖滾、吉他、鼓、貝斯、弦樂、輕快、振奮、流暢、原始、史詩、感傷、125 BPM”然後將這些文字敘述生成曲子。與其他一些AI產品不同的是,Stable Audio背後的AI演算是通過Stability AI和音樂庫Audiosparx之間的合作,針對授權許可的內容進行訓練。
Stability AI去年8月發布的Stable Diffusion產品已成為市場上最受歡迎的文本轉圖像生成器之一,截至去年10月,幫助推動Stability AI的市場估值達到10億美元。值得注意的是,Stability AI 聘請了Ed Newton-Rex,他創立了AI音樂製作平台Jukedeck,還曾擔任TikTok AI實驗室的產品總監,現在是Stability AI的音訊部副總裁。目前發布的生成音樂範例中,許多曲子聽來音質好、更加流暢、旋律優美,可與Meta的AudioCraft、Riffusion、OpenAI的Jukebox、Google的 MusicLM 等媲美。如果走在某個百貨或飯店大廳聽到播放這樣的AI音樂,甚至可能不會認為被是AI所創造。
Ed Newton-Rex認為,AI給音樂產業帶來的主要好處是為權利持有者增加價值,當你擁有AI時,你寫的或你擁有的音樂會變得更有價值,它不再只是一件靜態的東西,它可以不斷被修改。因此,作品可以藉由AI因應不同的要求快速作修正,也可以改變樂器好在影片中獲得精準的情緒,或是改變風格以適應某些全新的東西。有些人意識到生成式AI可以為音樂業務帶來機遇,因為人工智能不僅具有生成性,而且還有適應性。
在Stable Audio服務協議條款中,Stability AI明確表示將保留客戶在該工具上的活動等數據用於多種目的的權利,包括開發未來的模型和服務。
資料來源:◎ Tech Crunch + MusicAlly + Music Business Worldwide