您好,欢迎您来到林间号!
官网首页 小额贷款 购车贷款 购房贷款 抵押贷款 贷款平台 贷款知识 手机租机

林间号 > 区块链 > AIGC,内容生成巨浪已来

AIGC,内容生成巨浪已来

区块链 岑岑 本站原创

原文:复旦商业知识

图片来源:由* * AI生成

人类文明可以看作是所有人类生命印记记录的总和。那么,如果一个超级大脑学习了人类记录的所有知识,是否能帮助我们创造出更加灿烂丰富的文明?

2022年12月,入选《科学》杂志年度十大科学突破的AIGC将这一梦想带入了现实。AIGC被称为AI生成的内容,即生成式AI,它使用人工智能技术来自动生成内容。对于AIGC来说,2022年被认为是其发展令人惊叹的一年。AIGC可以说是当今AI领域最热门、最有想象力的发展方向。AIGC的发展催生了写作助手、AI绘画、对话机器人、数字人、办公软件助手等爆发式应用,通过人机交互形成了记录、学习、再创造的新范式。一个引人注目的问题出现了:AIGC将如何推动人工智能的新浪潮?

记录、学习和再创造

英雄未必从最后开始,但OpenAI的故事却是从一群对人工智能未来充满恐惧的暴发户开始的。GPT系列就像是OpenAI精心准备的各种饲料培育出来的超级大脑。

成立近三年半后创作的GPT-2模型,是OpenAI第一个真正意义上的代表作。GPT-2包含15亿个参数,并以800万个Reddit论坛帖子和总共40GB的文本为素材,显示了文本延续的能力。比如在《魔戒》里输入一句话,就会生成一个让人无法分辨真假的续集,情节和原著不一样,但是看起来很有逻辑。

OpenAI疯狂的想知道这个超级大脑如果能吃掉更多语料库会有什么样的能力,于是诞生了拥有1750亿参数的GPT-3横空。仅GPT-3的训练就消耗了数千万美元,专家们将数千亿个英语单词,如新闻报道、帖子、全文本和各种网页,从过去12年的6000万个域名中收集到的,输入到模型中。这一次,GPT-3不仅拥有更强的语言生成能力,还拥有出色的语境学习能力和大量的世界知识,精通写诗、新闻报道、回答问题和编码。最新的GPT-4具有更好的数据处理和理解能力。它可以接收并生成25000字的文本,是之前ChatGPT的8倍。

此外,它的逻辑思维能力和图像理解能力也有了很大的飞跃。OpenAI可能是人工智能记录、学习和再创造范式最坚定的实践者。根据爱丁堡大学和艾伦人工智能研究所的推测,OpenAI从GPT-3到GPT-3.5到GPT-4迭代了几个版本。ChatGPT基于人类反馈的强化学习进行指令微调,通过大幅降低情境学习能力,提高信息反应、公平反应、拒绝不恰当问题和拒绝超出其知识范围的问题四种能力。

一路上的AIGC

除了以ChatGPT为代表的语言生成技术,AIGC还包括图像生成、视频生成、音频生成等。根据中国信息通信技术研究院发布的《AIGC白皮书》,AIGC漫长的发展历程大致可以分为以下三个阶段:

早期萌芽阶段(20世纪50-90年代):受科技水平的限制,AIGC仅限于小范围的实验,生成的内容并不现实。1957年,勒贾伦·希勒(Lejaren Hiller)和伦纳德·艾萨克森(Leonard Isaacson)通过将计算机程序中的控制变量改为音符,完成了历史上第一部计算机创作的音乐作品——弦乐四重奏《髂骨组曲》。1966年,约瑟夫·韦岑鲍姆(Joseph Weizenbaum)和肯尼斯·科尔比(Kenneth Colby)共同开发了世界上第一个机器人“伊莱扎·卡普捷洛娃”(Eliza Kaptelova),它通过关键词扫描和重组来完成交互任务。20世纪80年代中期,IBM基于隐马尔可夫链模型制造了一款声控打字机“Tangora”,可以处理2万个单词。在这个阶段,AIGC仅仅是通过学习专家编写的规则生成的,泛化能力极其有限,就像一个被专家摆弄的木偶。

沉积成藏阶段(21世纪90-10年代):AIGC逐渐由实验转向实用。在深度学习算法、图形处理单元(GPU)、张量处理器(TPU)、训练数据规模等方面取得了重大突破。2007年,纽约大学人工智能研究员罗斯·古德温(Ross Goodwin)组装的人工智能系统,记录并感知了他在《公路之旅》中的所见所闻,并写出了世界上第一部完全由人工智能创作的小说——《1 The Road》。2012年,微软公开展示了一套全自动同传系统,可以通过深度神经网络(DNN),通过语音识别、语言翻译、语音合成等技术,从英语演讲人的内容中自动生成中文语音。在这个阶段,AIGC开始自动学习人类记录的少量数据,并掌握了一定的概括能力。但由于算法的瓶颈,生成效果有待提高。这时,AIGC就像一只善于模仿的鹦鹉。看似体面实则什么都不懂。

快速发展阶段(1910年代至今):2014年以来,随着生成式深度学习算法的提出和训练数据规模的迅速扩大,AIGC生成的内容效果逐渐逼真,直至人类难以分辨。2017年,来自微软的人工智能少女萧冰推出了世界上第一本完全由人工智能创作的诗集《阳光失落的玻璃窗》。2018年英伟达发布的StyleGAN模型可以自动生成图片,其生成的高分辨率图片人眼难以分辨真假。2021年,OpenAI推出了DALL-E,一年后推出了DALL-E-2的升级版。用户只需输入简短的描述性文字,达尔-E-2就能相应地创作出高质量的卡通、写实、抽象画。2022年7月,开源AI绘画工具Stable Diffusion发布,让普通人也能创作出专业画家级别的作品。同年8月,一幅名为《泰/克洛克-0/歌剧院》的艺术作品在美国科罗拉多博览会上获得一等奖。这部作品是艾创作的。后来发布的模型如Make-A-Video、Imagen Video和Phenaki可以生成带有文本描述的视频。2022年11月30日,OpenAI发布对话机器人ChatGPT,AIGC时代全面开启,生成内容百花齐放。

数据燃料

经过近70年的技术沉淀,AIGC已经成为人工智能产业的重要形式。2022年,谷歌研究人员发表了一篇题为《大型语言模型的涌现能力》的论文,发现当语言模型大到超过某个临界值时,就会涌现出较小模型所不具备的能力。近年来,以GPT-4和ChatGPT为代表的大规模模型技术取得的显著成就表明,增加模型和数据的规模是突破现有技术瓶颈的有效途径。

人工智能模型的规模越来越大,本质上是为了容纳更多的数据。然而,人类记录的高质量数据可能会在不久的将来耗尽。人工智能研究和预测机构Epoch在一篇未经同行评议的论文中预测,人工智能将分别在2023-2027年、2030-2050年和2030-2070年耗尽高质量文本数据、低质量文本数据和图片数据。

届时,基于AIGC的数据合成将成为人工智能的新燃料。目前人工智能产生的数据在所有数据中占比不到1%。根据咨询公司Gartner的预测,到2025年,人工智能产生的数据将占所有数据的10%。因此,尽快建立完整的AIGC产业生态,让用户主动与AIGC互动产生数据,从而形成数据飞轮,将持续推动人工智能技术的进步。

展望未来,科学AIGC可能成为人工智能技术落地的深水区和新的主战场,即“人工智能开启未来科学研究”。过去互联网公司的数据红利已经耗尽,但在科学领域积累了海量的实验数据。美国加州伯克利的一家创业公司在输入了2.8亿个氨基酸序列后,让模型学会了蛋白质的语言,实现了首次从零开始合成一种全新的蛋白质。AIGC带给科学领域的创新方兴未艾。预计到2025年,超过30%的药物和材料将由AIGC发现。

未来人类将与AIGC链接,形成内容创造和知识发现的共生体,但人类所有深层次的东西不会被AI改变。OpenAI首席执行官山姆·奥特曼(Sam Altman)曾预言,作为人类,我们仍然关注人与人之间的互动。人类大脑的奖励机制并没有改变。我们仍然追求快乐,有创造和竞争的欲望,渴望组建家庭...五万年前人类关心的,一百年后也会关心。

Sam altman也表示,ChatGPT的流行让人觉得AGI(通用人工智能)似乎离我们更近了,但实际上ChatGPT这样的大语言模型离AGI还很远,未来我们还有很长的路要走。在变与不变之间,AIGC掀起的浪潮已经到来。

本网站声明:网站内容来源于网络。如有侵权,请联系我们,我们会及时处理。

温馨提示:注:内容来源均采集于互联网,不要轻信任何,后果自负,本站不承担任何责任。若本站收录的信息无意侵犯了贵司版权,请给我们来信,我们会及时处理和回复。

原文地址"AIGC,内容生成巨浪已来":http://www.ljycsb.cn/qukuailian/214020.html

微信扫描二维码投放广告
▲长按图片识别二维码