钢琴是全球范围内最受欢迎的乐器之一。为特定歌曲创作钢琴伴奏通常需要高度的音乐知识和技术,而这种技术难度使得普通人难以完成。
钢琴伴奏制作通常需要丰富的音乐知识和很强的技术水平。例如,要为一首流行歌曲创作钢琴伴奏,首先需要听出歌曲中的旋律和和弦进程,再将其转录为钢琴演奏可以使用的乐谱。这是一个复杂且耗时的过程,尤其对没有专业音乐背景的人来说。因此,自动钢琴伴奏生成技术应运而生。
AMT-APC 是一种用于 自动生成钢琴伴奏 的模型,该模型的主要功能是通过从音频文件(例如一首歌或音乐片段)中提取信息,并根据音频中的旋律、和弦和节奏等特征,生成与原曲匹配的钢琴伴奏。这个伴奏不仅要准确地再现原始音乐中的旋律、和弦、节奏等,还要与原始音乐的风格相匹配。
AMT-APC 主要功能特点:
- 自动生成钢琴伴奏:AMT-APC 的核心功能是自动生成与音频或音乐视频匹配的钢琴伴奏。用户可以输入任何音乐音频或视频,系统会根据该音频生成高质量的钢琴演奏。无需手动编写乐谱或进行复杂的音乐转录。
- 高保真度伴奏:能够准确捕捉音频中的旋律、和弦、节奏和音符信息,生成的伴奏与原曲非常接近。其高保真度确保伴奏在节奏、旋律和音符上高度还原原曲的细节。
- 多样化风格生成:引入了风格向量(Style Vector),可以根据不同风格生成多种风格的钢琴伴奏。用户可以选择生成欢快、平静、激烈等不同情感风格的伴奏。这使得同一首音乐可以拥有多样化的钢琴演奏表现。
- 支持复杂乐曲:AMT-APC 可以处理多种不同复杂程度的音乐,无论是简单的旋律还是复杂的多乐器编曲,模型都能生成相应的钢琴伴奏。尤其在流行音乐、古典音乐等方面有良好表现。
- 风格控制功能:用户可以通过控制风格向量来影响生成的伴奏风格,从而使系统生成的伴奏不仅在技术上精确,还能在情感上符合用户的需求。
Original: Mrs. GREEN APPLE「ライラック」Official Music Video – YouTube
Original: 【Ado】向日葵 – YouTube
技术方法
AMT-APC 的核心架构基于自动音乐转录(AMT)模型,采用了 hFT-Transformer 作为基础模型,通过深度学习方法进行预训练和微调。其核心流程分为两个阶段:
- AMT 预训练:模型首先在 AMT 任务上进行预训练,目的是学习如何从音频中准确地转录音符(如音符的开始和结束时间、音高等)。
- APC 微调:在预训练完成后,模型在钢琴伴奏生成任务上进行微调,使其能够生成与输入音频相匹配的高质量钢琴伴奏。
AMT-APC 采用了以下关键技术来实现自动钢琴伴奏生成:
- 预训练和微调(Pre-training & Fine-tuning):AMT-APC 先使用标准的 AMT 任务进行预训练,以便模型能够掌握基本的音符转录能力。然后,通过在大量钢琴伴奏数据集上进行微调,使模型具备生成钢琴伴奏的能力。在 AMT 预训练的基础上,AMT-APC 进行钢琴伴奏生成任务的微调。微调时,模型通过交叉熵损失来优化输出结果。损失函数分别计算 onsets、frames 和 velocities 的误差,并通过多层模型进行优化,最终生成保真度高的钢琴伴奏。
- 矩阵输出的损失计算:模型输出的 onsets、frames 和 velocities 分别计算损失值,优化过程中重点关注音符位置的准确性,确保生成的钢琴伴奏与原曲保持一致。
- hFT-Transformer 架构:AMT-APC 选择了性能较好的 hFT-Transformer 作为其基础模型。该模型可以从音频中准确捕捉钢琴演奏的各种要素,如音符的开始时间(onsets)和结束时间(offsets)、音符的力度(velocity)等。与传统的模型不同,hFT-Transformer 使用二维的钢琴卷轴形式来表示这些信息,这样的表示更接近实际演奏。
- 风格向量的使用:为了生成多样化的钢琴伴奏,AMT-APC 引入了 风格向量。风格向量是从已有的钢琴伴奏中提取的,用于表示不同的演奏风格。该向量使得模型能够学习并应用多种风格,如平静或激烈的风格。风格向量由三个关键分布组成:
- Onset 率分布:表示音符在特定时间段内的分布频率。
- 力度分布:代表钢琴演奏的音量强弱(128 级)。
- 音高分布:表示整个钢琴伴奏中音符的音高分布(88 级)。
风格向量通过这些分布的概率表示,并以24维的向量形式输入到模型中,用于调整生成的伴奏风格。