原文链接:https://mp.weixin.qq.com/s/0p0pWa8XJriWPt5nBt5_wQ
原文链接:https://mp.weixin.qq.com/s/KdF3tEPUUBidwZpeKs4XWQ
2021年4月20日下午,受欧宝官方入口音乐工程系杨健教授邀请,字节跳动研究科学家孔秋强博士为我院师生带来题为《音乐人工智能与大规模钢琴数据集GiantMIDI-Piano的收集与分析》的讲座。讲座由欧宝官方入口音乐工程系以及上海市音乐声学艺术重点实验室主办,在零陵校区B201L教室举行。
孔博士首先从音乐与人工智能的结合切入,简要介绍了音乐人工智能这一学科的概况,音乐人工智能可以实现为音频打标签、音乐推荐、声源分离、音乐转谱、音乐生成、音乐效果、音乐视频等任务。作为目前世界上主要的音乐人工智能研究机构之一,字节跳动已经将这些应用用于目前最为热门的音乐类应用“抖音(TikTok)”之中,音乐人工智能已进入人们的日常生活。音乐人工智能为当今的音乐发展提供了新的可能,具有巨大的商业价值,也为大众音乐生活创造了新机遇。
在介绍GiantMIDI-Piano之前,孔博士先是讲解了其基础即音乐转谱的定义、应用以及具体方法。目前的音乐转谱对训练数据质量敏感,模型不稳定,且转谱时间精度有限(32 ms),也无踏板信息;而字节跳动提出的高精度钢琴转谱系统则有效解决了这些状况,构建神经网络模型,提出更稳定、更精准的音头、音尾建模,音头、音尾、音量、帧预测互相耦合,通过端到端训练,波形输入,预测输出,能够以任意精度(1 ms)检测音符,且可以完成钢琴踏板转谱。
随后,孔博士呈现了GiantMIDI-Piano的基本状况,作为目前世界上最大的钢琴数据集,GiantMIDI-Piano通过互联网获取数据的方法构建数据集,首先从国际音乐数字图书馆IMSLP上获取音乐信息,随后从YouTube上搜索音频,继而检测数据库中的钢琴独奏,最后进行钢琴转谱。现在GiantMIDI-Piano已开放下载,其中已有10854首作品的MIDI文件,作品覆盖2874位作曲家,总音符数达34,504,873个,音源来自于YouTube,均包含音量与踏板信息。孔博士通过一系列图表简单介绍了GiantMIDI-Piano的各方面数据的状况,目前已完成钢琴音符转谱、力度转谱、踏板转谱,而尚有节拍分析、速度分析、弦乐等一般乐器转谱待完成。
应用方面,GiantMIDI-Piano可以为音乐表演分析提供数据、工具,转谱多乐器音乐、演奏技法,创建如GiantMIDI-Symphony, GiantMIDI-Pop等大规模符号化音乐数据集,探索音乐转谱、音乐分离、音乐识别结合的系统,探索大规模音乐数据集在音乐生成中的应用。
孔博士指出,音乐人工智能丰富了大众的音乐生活体验。通过音乐人工智能,人人都可以创作音乐、分享音乐。音乐人工智能为用户提供智能音乐编辑功能,与推荐系统结合,下沉市场,为所有人提供展示平台,提供智能配乐功能,为商业化视频、广告和读物配乐,促进多媒体、视频、虚拟现实与音乐的交互,同时可在音乐教育等方面大展身手。
孔博士的讲解专业、清晰,并结合案例使得其讲解轻松易懂,现场气氛热烈。讲座问答环节中,我院师生分别就GiantMIDI-Piano的具体使用与应用、音乐人工智能的发展现状与方向、团队人才构成等方面提问。孔博士指出,目前音乐人工智能尚处于起步阶段,尤其缺乏音乐方面的人才。孔博士所在的字节跳动SAMI(Speech Audio and Music Intelligence)团队的工作重点为人工智能领域,人员构成以研究科学家、程序员为主,“字节跳动仍然在寻找‘音乐学专家’为团队提供更多音乐方面的信息与指导”。
当前,科技发展的势头仍十分强劲,字节跳动的GiantMIDI-Piano项目以及字节跳动对音乐人工智能的应用都是具有独创性的尝试。人工智能的介入为人们的音乐生活带来了新面貌、新体验。人工智能提供了有力的工具与方法,针对音乐在音乐人工智能中以何角色出现,以及音乐与人工智能结合后可能面临的挑战等问题,均亟需音乐学专家、音乐相关从业者参与以推动研究与应用,方能挖掘出音乐人工智能的更多可能性。
图片
主讲人简介:孔秋强博士,字节跳动研究科学家,2020年于英国萨里大学获博士学位,研究方向包括音频和音乐信号处理,代表作包括基于弱标签的音频事件检测和分离、大规模音频分类系统、构建大规模音乐数据集等。孔博士已于音频领域顶级期刊和会议发表多篇文章,截至2021年4月,其谷歌学术引用为1100余次,H指数为19;同时,孔博士任音频领域内多个顶级期刊和会议审稿人,并参与筹办了DCASE2018、LVA-ICA2018等多个国际学术会议。最近成果为收集并转谱了世界上最大的钢琴数据集GiantMIDI-Piano。
参考文献:
1. Kong, Q., Li, B., Song, X., Wan, Y. and Wang,Y., 2020. High-resolution Piano Transcription with Pedals by Regressing Onsetsand Offsets Times. arXiv preprint arXiv:2010.01815.
2. Kong, Q., Li, B., Chen, J.and Wang, Y., 2020. GiantMIDI-Piano:A large-scale MIDI dataset for classical piano music. arXiv preprint arXiv:2010.07061.
Code:
1. Pianotranscription: https://github.com/bytedance/piano_transcription
2. GiantMIDI-Piano: https://github.com/bytedance/GiantMIDI-Piano
GiantMIDI-Piano下载:
1. Google Drive: https://drive.google.com/drive/folders/1Stz3CAvMoplo79LR5I3onMWRelCugBYS?usp=sharing
2. 百度网盘:https://pan.baidu.com/s/1up4jzPcalVMJt5RfYhEerg 密码: gbl0