谷歌“狂飙”在生成式AI赛道，最新模型可凭文字、图片“创作”音乐

来源:编辑:宋梓侨

谷歌“狂飙”在生成式AI赛道，最新模型可凭文字、图片“创作”音乐图片来源:工具生成。

在生成式AI模型的赛道上，谷歌一路“狂飙”。继文本生成AI模型Wordcraft和视频生成工具Imagen Video之后，Google将生成式AI的应用场景扩展到了音乐圈。

当地时间1月27日，谷歌发布了一种新的AI模型——MusicLM，它可以从文本甚至图像中生成高保真的音乐，也就是说，一段文字、一幅画都可以转化成风格多样的歌曲。

谷歌在相关论文中展示了大量案例，如输入副标题“雷鬼与电子舞曲的结合，带有空狂野非凡的声音，造成迷失在too 空中的体验，音乐旨在唤起一种惊喜和敬畏的感觉，同时适合跳舞”，MusicLM生成了30秒的电子音乐。

谷歌“狂飙”在生成式AI赛道，最新模型可凭文字、图片“创作”音乐另一个例子是世界名画《拿破仑越过阿尔卑斯山的圣·伯纳德山口》。MusicLM制作的音乐庄重典雅，将冬天的凶悍豪迈色彩体现的淋漓尽致。除了写实油画之外，抽象画如舞蹈、尖叫、格尔尼卡、Star 空都可以冠名。

谷歌“狂飙”在生成式AI赛道，最新模型可凭文字、图片“创作”音乐

谷歌“狂飙”在生成式AI赛道，最新模型可凭文字、图片“创作”音乐 MusicLM甚至有一个音乐串，在故事模式下混合不同风格的歌曲。即使要求生成音乐5分钟，MusicLM也不是问题。

谷歌“狂飙”在生成式AI赛道，最新模型可凭文字、图片“创作”音乐此外，MusicLM还有强大的辅助功能，可以指定具体的乐器、场所、流派、年份、音乐家的演奏水平等。，并调整生成音乐的质量，使一首音乐可以变换成多个版本。

MusicLM并不是第一个生成歌曲的AI模型。类似的产品还有Riffusion，Dance Diffusion等。谷歌也发布了AudioML，最受欢迎的聊天机器人“ChatGPT”的开发者OpenAI推出了Jukebox。

MusicLM有什么独特之处？

它实际上是一个分层的序列到序列模型。据人工智能科学家Keunwoo Choi介绍，MusicLM结合了木兰+AudioLM和木兰+w2b-Bert+Soundstream，堪称大师。

其中，AudioLM模型可以看作是MusicLM的前身，它以AudioLM的多阶段自回归建模作为生成条件，可以通过文本描述生成频率为24kHz的音乐，并保持这个频率几分钟。

相比较而言，MusicLM的训练数据更多。研究团队引入了第一个专门为text-music生成的任务评价数据MusicCaps，以解决任务缺乏评价数据的问题。MusicCaps由专业人士共同打造，涵盖5500个音乐-文字对。

基于此，Google用28万小时的音乐数据集训练了MusicLM。

谷歌的实验表明，MusicLM在音频质量和符合文本描述方面优于之前的模型。

但MusicLM也有所有生成性AI的共同风险——技术不完善、物质侵权、道德争议等等。

对于技术问题，比如要求制作人声，技术上可行，但是效果不好，歌词凌乱不清。MusicLM也会“偷懒”——大约1%的音乐直接从训练集中的歌曲生成。

另外，AI系统生成的音乐是原创作品吗？可以受版权保护吗？能和“人造音乐”抗衡吗？相关争议一直没有共识。

以上是Google没有发布MusicLM的原因。“我们承认该模式存在窃取创意内容的潜在风险，我们强调未来需要做更多工作来应对这些与音乐生成相关的风险。”谷歌发表的论文写道。

温馨提示：注：内容来源均采集于互联网，不要轻信任何，后果自负，本站不承担任何责任。若本站收录的信息无意侵犯了贵司版权，请给我们来信，我们会及时处理和回复。

原文地址"谷歌“狂飙”在生成式AI赛道，最新模型可凭文字、图片“创作”音乐"：http://www.ljycsb.cn/qukuailian/248582.html。

微信扫描二维码投放广告
▲长按图片识别二维码

栏目最新