您好,欢迎您来到林间号!
官网首页 小额贷款 购车贷款 购房贷款 抵押贷款 贷款平台 贷款知识 手机租机

林间号 > 区块链 > 谷歌“狂飙”在生成式AI赛道,最新模型可凭文字、图片“创作”音乐

谷歌“狂飙”在生成式AI赛道,最新模型可凭文字、图片“创作”音乐

区块链 岑岑 本站原创

来源:编辑:宋梓侨

谷歌“狂飙”在生成式AI赛道,最新模型可凭文字、图片“创作”音乐图片来源:工具生成。

在生成式AI模型的赛道上,谷歌一路“狂飙”。继文本生成AI模型Wordcraft和视频生成工具Imagen Video之后,Google将生成式AI的应用场景扩展到了音乐圈。

当地时间1月27日,谷歌发布了一种新的AI模型——MusicLM,它可以从文本甚至图像中生成高保真的音乐,也就是说,一段文字、一幅画都可以转化成风格多样的歌曲。

谷歌在相关论文中展示了大量案例,如输入副标题“雷鬼与电子舞曲的结合,带有空狂野非凡的声音,造成迷失在too 空中的体验,音乐旨在唤起一种惊喜和敬畏的感觉,同时适合跳舞”,MusicLM生成了30秒的电子音乐。

谷歌“狂飙”在生成式AI赛道,最新模型可凭文字、图片“创作”音乐另一个例子是世界名画《拿破仑越过阿尔卑斯山的圣·伯纳德山口》。MusicLM制作的音乐庄重典雅,将冬天的凶悍豪迈色彩体现的淋漓尽致。除了写实油画之外,抽象画如舞蹈、尖叫、格尔尼卡、Star 空都可以冠名。

谷歌“狂飙”在生成式AI赛道,最新模型可凭文字、图片“创作”音乐

谷歌“狂飙”在生成式AI赛道,最新模型可凭文字、图片“创作”音乐MusicLM甚至有一个音乐串,在故事模式下混合不同风格的歌曲。即使要求生成音乐5分钟,MusicLM也不是问题。

谷歌“狂飙”在生成式AI赛道,最新模型可凭文字、图片“创作”音乐此外,MusicLM还有强大的辅助功能,可以指定具体的乐器、场所、流派、年份、音乐家的演奏水平等。,并调整生成音乐的质量,使一首音乐可以变换成多个版本。

MusicLM并不是第一个生成歌曲的AI模型。类似的产品还有Riffusion,Dance Diffusion等。谷歌也发布了AudioML,最受欢迎的聊天机器人“ChatGPT”的开发者OpenAI推出了Jukebox。

MusicLM有什么独特之处?

它实际上是一个分层的序列到序列模型。据人工智能科学家Keunwoo Choi介绍,MusicLM结合了木兰+AudioLM和木兰+w2b-Bert+Soundstream,堪称大师。

其中,AudioLM模型可以看作是MusicLM的前身,它以AudioLM的多阶段自回归建模作为生成条件,可以通过文本描述生成频率为24kHz的音乐,并保持这个频率几分钟。

相比较而言,MusicLM的训练数据更多。研究团队引入了第一个专门为text-music生成的任务评价数据MusicCaps,以解决任务缺乏评价数据的问题。MusicCaps由专业人士共同打造,涵盖5500个音乐-文字对。

基于此,Google用28万小时的音乐数据集训练了MusicLM。

谷歌的实验表明,MusicLM在音频质量和符合文本描述方面优于之前的模型。

但MusicLM也有所有生成性AI的共同风险——技术不完善、物质侵权、道德争议等等。

对于技术问题,比如要求制作人声,技术上可行,但是效果不好,歌词凌乱不清。MusicLM也会“偷懒”——大约1%的音乐直接从训练集中的歌曲生成。

另外,AI系统生成的音乐是原创作品吗?可以受版权保护吗?能和“人造音乐”抗衡吗?相关争议一直没有共识。

以上是Google没有发布MusicLM的原因。“我们承认该模式存在窃取创意内容的潜在风险,我们强调未来需要做更多工作来应对这些与音乐生成相关的风险。”谷歌发表的论文写道。

温馨提示:注:内容来源均采集于互联网,不要轻信任何,后果自负,本站不承担任何责任。若本站收录的信息无意侵犯了贵司版权,请给我们来信,我们会及时处理和回复。

原文地址"谷歌“狂飙”在生成式AI赛道,最新模型可凭文字、图片“创作”音乐":http://www.ljycsb.cn/qukuailian/248582.html

微信扫描二维码投放广告
▲长按图片识别二维码