灌籃高手|LoveLive! 出了一篇AI論文:生成模型自動寫曲譜( 二 )


降低樂譜生成的成本對于在線音游開發者來說是一個重要挑戰 , 因為它是日常運營的瓶頸 。 KLab提出的方法實現了只需要音頻 , 就可以直接生成樂譜 。
在研究過程中 , 開發者們首先提出了DanceDanceConvolution(DDC) , 生成了具有人類高水平的 , 較高難度游戲模式的樂譜 , 但低難度反而效果不好 。 隨后研究者們通過改進數據集和多尺度conv-stack架構 , 成功捕捉了樂譜中四分音符之間的時間依賴性以及八分音符和提示節拍的位置 , 它們是音游中放置按鍵的較好時機 。
DDC由兩個子模型組成:onset(生成音符的時機)和sym(決定音符類型 , 如輕按或滑動)
目前正在使用的AI模型在所有難度的曲譜上都獲得了很好的效果 , 研究人員還展望了該技術擴展到其他領域的可能性 。

KLab應用深度生成模型來合成樂譜 , 并改進樂譜的制作流程 , 將業務成本降低了一半 。 該研究闡明了如何通過專門用于節奏動作的多尺度新模型GenéLive! , 借助節拍等來克服挑戰 , 并使用KLab的生產數據集和開放數據集進行了評估 。
方法
此前 , KLab樂譜的生成工作流是在不考慮自動化的情況下形成的 , 幾乎沒有達成明確的規則或數學優化目標 。 因此 , 該研究選擇使用監督機器學習 。 到2019年底 , KLab已經發布了數百首歌曲的音頻序列和相應的人工生成樂譜 。
一方面 , 這個項目被要求快速交付并起到協助的作用;另一方面 , 項目的目標具有挑戰性 , 旨在改進SOTA深度生成模型 。 通常 , 研究新型神經網絡架構需要大量的反復試驗 , 這個過程需要六個月或更長時間 。
為了解決時間上的問題 , 該研究組織了一個模型開發團隊和一個模型服務團隊 , 通過與藝術家團隊保持聯系獲得反饋 , 將其反映到模型開發和服務中 , 并在第一時間提供更新的模型 , 從而使他們保持一致 。
GenéLive!的基礎模型由卷積神經網絡CNN層和長短期記憶網絡LSTM層組成 。 對于頻域中的信號 , 作者利用CNN層來捕獲頻率特征 , 對于時域利用LSTM層來完成任務 。

GenéLive!的模型架構 。
在這里 , 卷積堆棧(conv-stack)的主要任務是使用CNN層從mel頻譜圖中提取特征 。 conv-stack包括一個具有批量標準化的標準CNN層、一個最大池化層和一個dropout層 , 激活函數是ReLU 。 最后為了規范輸出 , 這里使用了全連接層 。
時域方面采用了BiLSTM , 提供前一個conv-stack的輸出作為輸入 。 為了實現不同的難度模式 , 作者將難度編碼為一個標量(初級是10 , 中級是20 , 以此類推)并將這個值作為新特征附加到convstack的輸出中 。

Conv-stack架構 。
在訓練數據方面 , GenéLive!使用了幾百首早期的LLAS歌曲 , 《歌之王子殿下》的歌曲 , 以及音樂游戲引擎「Stepmania」中可公開訪問的音樂和樂譜 。
模型開發
該模型是由KLab和九州大學合作完成的 。 兩個團隊之間需要一個基于Web的協作平臺來共享源代碼、數據集、模型和實驗等 。 具體來說 , 該研究用于模型開發的系統架構如下圖所示 。

模型服務
為了使樂譜生成程序可供藝術家按需使用 , 它應該方便藝術家自行使用而無需AI工程師的幫助 。 并且由于該程序需要高端GPU , 將其安裝在藝術家的本地計算機上并不是一個合適的選擇 。 該模型服務系統架構如下圖所示 。

實驗結果
為了度量該方法中每個組件的性能 , 研究者在「LoveLive!AllStars」數據集上進行了消融實驗 。
下表3的結果表明GenéLive!模型優于此前的SOTA模型DDC 。

為了評估節拍指導的作用 , 消融實驗的結果如下圖9所示 。

相關經驗推薦