分类
麻省理工学院新闻

使用数学无缝地混合音符

算法使一个音频信号滑入另一个,再现了一些乐器的“portamento”效果。

在音乐中,“portamento”这个词已经使用了数百年,指的是将一个音调的音符滑动到一个较低或较高音调的音符中的效果。但只有音高不断变化的乐器——如人声、弦乐器和长号——才能达到这种效果。

现在,麻省理工学院的一名学生发明了一种新的算法,可以在任意两个音频信号之间实时产生端口效应。在实验中,该算法无缝地融合了各种音频剪辑,比如钢琴音符滑入人的声音,一首歌曲融入另一首歌曲。他描述该算法的论文在最近的国际数字音频效果会议上获得了“最佳学生论文”奖。

该算法依赖于“最优传输”,这是一个基于几何的框架,它决定了在多个原点和目标配置之间移动对象(或数据点)的最有效方式。该框架在18世纪形成,已应用于供应链、流体动力学、图像对齐、三维建模、计算机图形学等领域。

特雷弗·亨德森现在是计算机科学专业的研究生,他在一个课堂项目中应用最优传输来插入音频信号,或者将一个信号混合到另一个信号中。该算法首先将音频信号分解成简短的段。在此基础上,提出了一种最优的方法,将各节段的音高转换为另一节段的音高,从而达到平滑滑道的效果。该算法还包括在音频信号转换时保持其保真度的专门技术。

亨德森说:“这里使用最优传输来确定如何将一种声音的音高映射到另一种声音的音高。“例如,如果它把一个和弦转换成一个不同和声的和弦,或者有更多的音符,那么这些音符就会从第一个和弦分裂出来,并在另一个和弦中找到一个无缝滑动的位置。”

亨德森表示,这是将最优传输应用于音频信号转换的首批技术之一。他已经用这个算法制造了一种设备,可以在他的广播节目中实现歌曲之间的无缝转换。dj们也可以在现场表演时使用该设备在曲目之间切换。其他音乐家可能会在舞台上或录音室里用它来混合乐器和声音。

亨德森论文的合著者是Justin Solomon,他是电子工程和计算机科学系的X-Consortium职业发展助理教授。所罗门还会演奏大提琴和钢琴,他是计算机科学和人工智能实验室(CSAIL)几何数据处理小组的组长,也是计算工程中心的成员之一。

亨德森选修了所罗门教授的6.838(形状分析)课程,该课程要求学生将最优运输等几何工具应用于实际应用。学生的项目通常集中在虚拟现实或计算机图形的三维形状。因此,亨德森的计划让所罗门感到意外。“特雷弗在音频信号中发现了几何形状和移动频率之间的抽象联系,从而创造出一种portamento效应,”所罗门说。“整个学期他都在我的办公室里进进出出,带着DJ设备。这并不是我想看到的,但是非常有趣。”

对亨德森来说,这并不是太牵强附会。“当我看到一个新想法时,我会问,‘这适用于音乐吗?’”他说。“所以,当我们谈到最优传输时,我想知道如果把它与音频频谱连接起来会发生什么。”

亨德森说,考虑最优交通方式的一个好方法是“用一种懒惰的方式建造一座沙堡”。在这个类比中,这个框架被用来计算如何将每一粒沙子从它在一堆不成形的沙子中的位置移动到沙堡中相应的位置,所做的工作越少越好。例如,在计算机图形学中,通过找出从一个图形上的每个点到另一个图形上的最优运动,可以使用最优传输来转换或变形图形。

将这一理论应用到音频剪辑中涉及到信号处理的一些额外想法。根据乐器的不同,乐器通过部件的振动产生声音。小提琴使用弦,铜管乐器使用中空的身体内部的空气,人类使用声带。这些振动可以被捕获为音频信号,其中频率和振幅(峰值高度)代表不同的音高。

传统上,两个音频信号之间的转换是通过衰减来完成的,即一个信号的音量减小,而另一个信号的音量增大。另一方面,亨德森的算法可以平稳地将频率段从一个剪辑滑到另一个剪辑,而不会使音量衰减。

为此,该算法将任意两个音频剪辑分割成大约50毫秒的窗口。然后,它运行一个傅里叶变换,将每个窗口转换成它的频率分量。一个窗口内的频率分量被集中到单独的合成中。然后,“最佳传输”会将一个信号窗口中的音符如何移动到另一个信号窗口中的音符上进行映射。

然后,“插值参数”接管。这个值决定了每个音符从一个信号的起始音高到另一个信号的结束音高的路径。手动更改参数值将扫描两个位置之间的音高,从而产生portamento效果。这个单一的参数也可以通过编程进入并控制,比如说,一个横杆,一个DJ混音板上的滑块组件,它可以在歌曲之间平滑地淡入淡出。当横向推杆滑动时,插补参数会发生变化以产生这种效果。

在幕后,有两项创新确保了信号不失真。首先,亨德森使用了一种名为“频率重分配”的信号处理技术的新应用,它将频率箱集中在一起,形成可以在信号之间轻松转换的单个音符。其次,他发明了一种方法,为每个音频信号合成新的相位,同时将50毫秒的窗口拼接在一起,这样相邻的窗口就不会相互干扰。

接下来,Henderson想要尝试将效果的输出反馈到输入中。他认为,这可以自动创造另一种古典音乐效果,“连奏”,这是在不同音符之间的平稳过渡。不像portamento——它播放开始和结束音符之间的所有音符——连奏无缝地在两个不同音符之间转换,而不捕捉中间的任何音符。

新闻旨在传播有益信息,英文原版地址:http://news.mit.edu/2019/math-portamento-music-0927