您好,欢迎您来到林间号!
官网首页 小额贷款 购车贷款 购房贷款 抵押贷款 贷款平台 贷款知识 手机租机

林间号 > 区块链 > 中国模型展2021,大型模型

中国模型展2021,大型模型

区块链 岑岑 本站原创

作者:于慧茹,编辑:罗丽娟。

国内大模型迎来中场战事图片来源:工具生成。

互联网和科技界掀起的大模型浪潮迎来了新的战争。

自今年3月以来,已有20多家国内企业进入大模型轨道。从百度的《文易欣言》、阿里的《依桐钱文》的发布,到360的《鸿海儿》、商汤的《一天天》、网易的《雨言》、科大讯飞的《星火》、昆仑万伟的《天宫》的推出,再到腾讯的《混元》、京东的预测。COM的“ChatJ”和华为的“盘古”。互联网巨头和科技公司纷纷亮出“肌肉”,谁都不想在这场大模式混战中掉队。

在这股热潮中,大模式的发展阶段从“通用”走向了“垂直”。

计算能力、大规模数据、高成本人才成为大部分企业进入通用大模式的障碍。然而,深度定制和广泛场景应用的需求催生了中国大型垂直模型的发展。

近两个月来,很多在医疗、金融、教育、绘画等行业有用户数据积累的中小企业,已经开始在国内外大型模型的“基础”上,训练和改编自己的垂直模型。同时,已经发布通用大机型的公司也推出了针对特定行业的机型。

如果说一般的大模型是大模型发展的初级阶段,那么垂直场景应用可以看作是它的“中场战役”。在这个阶段,应用和场景先行,倒逼垂直领域的大模式跨越式发展,在不同行业率先实现落地价值。

01路线差异

短短两个月,分化已经出现。

在5月23日举行的文心大模型技术交流会上,百度AI Cloud AI与大数据平台总经理辛舟介绍:“文心千帆大模型平台是百度提供的企业级大模型制作平台,不仅提供包括文心伊彦在内的大模型服务和第三方大模型服务,还为大模型的开发和应用提供完整的工具链。”

即文新千帆可以提供大规模的模型服务,以文新为核心帮助客户改造产品和生产流程;企业也可以基于文新千帆上的任何开源或闭源大模型,开发自己专属的大模型。

国内大模型迎来中场战事很多接触全天候技术的业内人士认为,目前国内大型模型赛道主要包括三类:一类是具有标杆GPT的通用大型模型,以基础层公司为主;一种是在开源模型的基础上训练垂直模型,重点是垂直行业的企业;另一种是专注于具体应用的纯应用公司。

“当初大家都冲进通用模式,现在出现了分化。无论是细分到具体行业,还是不经过研发直接调用接口进行产品操作,这个趋势越来越清晰。”前金山软件副总裁兼人工智能事业部负责人、现人工智能领域企业家黎长亮告诉全天候科技。

一般大规模模型面临计算能力需求高、训练和推理成本高、数据质量差等挑战。一个成功的可以对外输出的通用大规模模型,需要厂商具备全栈大规模模型训练和研发能力、业务场景落地经验、AI安全治理措施、生态开放等核心优势。

在百度AI云副总裁朱勇看来,基础模型(通用大模型)的公司可能“只有少数”,但专业领域的大模型会很多。

“训练一个基本模型的成本非常高。做一个1000亿的大模型,比一万大卡的单机组需要更多的计算能力。”朱勇说,国内外真正制造通用模型的公司并不多。相反,训练领域(垂直)模型所需的成本和资源远远小于从零开始制作通用模型所需的成本和资源。

所以从商业逻辑来看,大部分公司不具备做通用大模型的能力,巨头更适合做通用大模型,场景数据积累丰富的公司更适合做垂直模型。

垂直模式侧重于深度解决行业需求,即企业在自己的领域培养自己的“产业GPT”。这种大模型生成的内容更符合特定垂直场景的需求,质量更高。

目前可以看到很多垂直模型在金融、医疗、交易场景中的应用。例如,根据其丰富的金融数据资源,并基于GPT-3框架,开发了BloombergGPT这一大型金融模型。

除了以上两种常见模式,国内大模式创业赛道上还有一家专门做应用的公司。他们没有R&D团队,从现有的大模型调用接口来做产品和运营。

一般领域与垂直领域

布局通用大模式的巨头需要生态。因此,百度和阿里都希望成为“大模式的基地”,为行业和企业赋能。但并不是所有的企业都有这个能力。

国内大模型迎来中场战事“现有大型模型的计算能力和能耗的挑战将促使大量工作向特定领域和轻量级大型模型的方向发展,尤其是在金融、教育、医疗和交通领域,大量工作正在试图降低大型模型的成本。”中科院自动化所副所长曾大军在近日举行的第六届数字中国建设峰会上表示。

相对于一般的大型模型,需要较高的开发和培训成本,而基于开源模型的垂直模型开发,可以兼顾开发成本和数据安全。

事实上,除了挑战,实际场景需求也加速了大规模模型概化的进程。

“中国擅长商业模式和应用创新。”一位AI领域的创业者表示,同时AI模型落地场景多,数据丰富,追风热情高涨。所以在短短两个月的时间里,大规模的模式发展很快。

国内大模型迎来中场战事以百度文心千帆为例。目前联合测试开发的公司通常来自信息化和技术渗透率较高的行业,如金融行业、能源行业、泛互联网行业等。

“竖模是在一般大模的基础上训练出来的。没有一般的大模式,就没有垂直模式。”辛舟表示,垂直模式强调领域的诀窍,对于特定的领域,需要针对该领域的任务做指令学习。

不同行业,不同场景,指令学习的差别也是很大的。比如泛互联网行业更注重营销和推荐的效果,而金融领域更注重风控、公信力和营销的效果。

在黎长亮看来,垂直模式与一般模式的最大区别在于,垂直模式在资源投入和成本投入方面的要求降低了,但附加的要求是行业诀窍,即这个行业的知识要求提高了。

数据方面,在特定的垂直领域,企业拥有私有数据,这是其他企业用钱买不到的核心竞争力和天然优势。

在计算能力上,通过微调通用大模型实现的垂直大模型,相对于通用大模型是“几何级的下降”。

根据郭进证券的计算,在模型微调阶段,由于训练量级较小,只有1万个,相关计算成本可以忽略不计。

以斯坦福大学2023年3月发布的羊驼为例,它是基于LLaMA-7B基座,经过52000条指令微调的对话语言模型。模型基于八个A100微调,微调时间3小时,计算成本不超过300元。

当然,并不是所有企业都能在通用大模式的基础上进行微调。

以百度文心千帆为例,在这个平台上通过微调做出自己的大模型有两个条件:企业是否有高质量的数据保存;能不能按照你对生成式AI的理解,把自己的业务变成高质量的数据,变成指定的数据,进行指定的微调?

换句话说,那些拥有大量行业数据和行业知识的企业有更大的机会做出垂直模型。

“因为有专业的数据,行业的诀窍,以及不同类型的领域模型,这些领域模型在未来会非常繁荣,支持上层非常繁荣的领域应用。”朱勇说。

03“两条腿走路”

“GPT+行业专家系统”的模式产生了一种新的垂直领域模式。

大模式最大的价值在于创新商业模式,改造商业组织的每一个环节,从而达到降本增效的效果。这也是公司进入大模式的原因。

而Meta下的LLaMA模型等大型模型的开源,给垂直模型的发展装上了加速器。

* * *信息显示,LLaMA基于通用领域开源数据集进行训练,训练数据覆盖40种语言,包含约1.4万亿个令牌。美洲驼模型一经发布,就完全对外开源,吸引了广大AI开发者。

作为完全开源的领先模型,LLaMA具有很高的灵活性、可配置性和泛化能力,可以作为垂直AI模型的通用基础。

尽管美洲驼模型的参数很小,但其性能并不逊于PaLM、GPT-3等语言模型。并且更小的参数尺度显著降低了LLaMA模型落地部署和二次开发的难度。

“基于LLaMA的开源模型,我们可以通过喂自己的数据,慢慢调试,调试出我想要的东西。”一位AIGC领域的企业家告诉全天候科技。

全天候科技了解到,很多企业采用“两条腿走路”的策略,即在接入大模型API的同时,在开源模型上进行模型的提炼,两者形成反馈链,加速各自能力的提升,打造创新闭环。

"调用API接口也是获取数据资源的有效手段."黎长亮表示,这部分数据可能会在未来的企业培训模式中发挥作用。

在很多业内人士看来,垂直大模式对各行各业来说都是一种全新的生产力,所有行业的垂直大模式都可能对其所在行业产生重大甚至颠覆性的影响。

值得一提的是,在一级市场,专注于垂直模式的创业公司也是投资机构眼中的“宝贝”。

在不久前举行的2023中国投资年会上,天堂硅谷高级合伙人王伟将“具有大垂直模型、行业数据和行业诀窍的项目”列为其重点投资领域之一。

温馨提示:注:内容来源均采集于互联网,不要轻信任何,后果自负,本站不承担任何责任。若本站收录的信息无意侵犯了贵司版权,请给我们来信,我们会及时处理和回复。

原文地址"中国模型展2021,大型模型":http://www.ljycsb.cn/qukuailian/217470.html

微信扫描二维码投放广告
▲长按图片识别二维码