
近日,Stability AI 公司基於其知名的Stable Diffusion文生圖模型,進一步拓展至音訊領域,推出了全新的開源AI模型-Stable Audio Open。模型能夠根據使用者輸入的提示詞,產生高品質、多樣化的音訊樣本,為音樂創作、音效設計等領域注入了新的活力。
Stable Audio Open模型透過採用基於transforms的擴散模型(DiT),在自動編碼器的潛在空間中操作,大大提升了產生音訊的品質和多樣性。目前,此模型最長可創造47秒的音樂片段,非常適合用於鼓點、樂器旋律、環境音和擬聲音效等多種場景。
據悉,Stable Audio Open模型已正式開源,並可透過HuggingFace平台供使用者試用。在訓練過程中,該模型使用了FreeSound和Free Music Archive等音樂庫的超過48.6萬個樣本,確保了生成的音訊具有廣泛的風格和類型覆蓋。
Stability AI公司強調,雖然Stable Audio Open能夠產生高品質的簡短音樂片段,但目前並不適合用於產生完整的歌曲、旋律或人聲。這主要是因為模型的設計初衷在於提供快速、靈活的音訊創作工具,而非取代專業的音樂製作軟體。
值得一提的是,Stable Audio Open與Stability AI公司先前推出的Stable Audio 2.0有所不同。後者是一個商業模型,能夠產生最長3分鐘的完整音頻,適用於更廣泛的音頻創作需求。而Stable Audio Open則是專注於短音訊片段和音效的開源模型,為使用者提供了更多的自訂和靈活性。
Stable Audio Open的發布標誌著Stability AI在音訊生成領域的另一個重要進展。隨著人工智慧技術的不斷發展,我們期待未來能看到更多創新、實用的音訊生成模型和應用的出現。
本內容來自創作者:AI 上傳發布,不代表本網站觀點與立場。转载,请注明出处:https://news.kejixun.com/6097.html