音乐家为歌词作曲,从而形成歌曲,好的歌曲的旋律会体现歌词内含的音乐;那么能否直接由歌词来生成乐曲呢?来自东京国立信息学院的研究成果表明这是可行的。在预印服务器 Arxiv.org 上发表的一篇论文中,研究人员描述了一种机器学习系统,可从音节和音符之间的关系学习中生成“以歌词为条件的”旋律。

这篇题为《有条件的 LSTM-GAN 用于从歌词中生成旋律》写道:“从歌词中生成旋律一直是人工智能音乐领域的一个具有挑战性的研究课题,目标是学习和发现有趣的歌词和伴随旋律之间的潜在关系。随着可用歌词与旋律数据集和 AI 的发展,歌词和旋律之间的音乐知识挖掘将逐渐成为可能。”

研究人员解释说,音符有两个音乐属性:音调和持续时间。音调是声音的感知属性,它在频率相关的范围内以高或低来组织音乐,而持续时间表示音调的时间长度。音节与歌曲 MIDI 文件中的旋律一致;所述文件中的列表示一个音节及其与之对应的音符、音符持续时间和休止符时间。

他们创建的 AI 系统利用了长短期记忆(LSTM)网络(一种能够学习长期依赖性的递归神经网络)的校准数据,以及生成性对抗网络(GAN,一种由产生样本的发生器和区分生成样本和真实样本的鉴别器两部分组成的神经网络)。LSTM 经过训练,可以在音节和单词级别学习联合嵌入(数学表示)来捕捉歌词的突触结构,而 GAN 随着时间的推移学会了在给定歌词时同时预测旋律,同时考虑到了歌词和旋律之间的关系。

为了训练它,该团队编译了一组由 12,197 个 MIDI 文件组成的数据集,每个文件都与歌词和旋律对齐——7,998 个文件来自开源的 LMD-full MIDI 数据集,4,199 个文件来自 Reddit 的 MIDI 数据集——他们将这些数据集缩减到 20 个音符序列。他们从 LMD 完整的 MIDI 中提取了 20934 个独特音节和 20268 个独特单词,并为每个 MIDI 文件提取每分钟节拍数(BPM),然后计算出音符持续时间和休止符持续时间。

在将语料库划分为训练集、验证集和测试集并将它们输入模型后,研究人员进行了一系列测试,以确定它如何预测与歌词、MIDI 数字、音符持续时间和休止符持续时间顺序一致的旋律。他们报告说,他们的 AI 系统不仅在各个方面都优于基准模型,而且与人类作曲的分布非常接近。在一项主观评估中,志愿者被要求对基准模型、AI 模型生成和人类创作的 12 个 20 秒旋律的质量进行评分,结果该模型生成的旋律得分比基准模型更接近人类的创作。

研究人员接下来将尝试用未完成的歌词草稿合成旋律,以给定旋律作为条件预测歌词。

“在音乐和人工智能领域,从歌词中产生的旋律仍然没有得到很好的探索。”研究人员写道,“利用深度学习技术生成旋律是一个非常有趣的研究领域,目的是了解人类的音乐创作活动。”

在人工智能音乐领域,东京国立信息学院的研究只是诸多成果中一个。今年 7 月,蒙特利尔的初创公司 Landr 为一款产品筹集了 2,600 万美元,该产品可以分析音乐风格,创建定制的音频处理器集。而 OpenAI 和 Google 今年早些时候推出了利用音乐生成算法的在线创作工具。最近,索尼公司的研究人员研发了一种用于条件式鼓点轨迹生成的机器学习模型,可创建从一首歌曲到另一首歌曲的各种“音乐上可信的”鼓声模式。人工智能可能很快就会成为音乐家作曲库中一种重要的工具。(编译自 venturebeat.com)

【数字叙事 Lighting】