为了解决上述问题,本文首次提出了一种全新的任务:短视频音乐定位(Music Grounding by Short Video, MGSV)。具体而言,给定一个待配乐的短视频,MGSV旨在从乐曲库中检索到与之最为匹配的乐曲,并通过时间定位,自动剪辑与视频时长一致的音乐片段。针对这一新任务,我们构建并发布了一个大规模基准数据集MGSV-EC,包含来自电商短视频广告平台的5.3万部短视频和来自4千多首完整音乐的3.5万个音乐片段。同时,我们提出了一个统一的视频-音乐匹配与音乐片段定位基准方法MaDe。MaDe采用端到端的深度网络架构,能够同时完成视频-音乐匹配(Video-Music Matching)以及音乐片段检测(Music Moment Detection)任务。在MGSV-EC上的大量实验结果表明,该任务极具挑战性,而MaDe方法表现出明显优于现有方法的优势,可作为MGSV任务的强力基线。