原作者:Tanya Malhotra
来源:
近年来,大型语言模型在世界范围内得到了广泛的重视,在自然语言处理领域非常流行。这使得我们能够以比以往更好、更清晰的语言理解来描述智能系统。
GPT三号、T5、PaLM等运载火箭的性能。已经得到了显著的改进,这些模型将继续存在,因为它们可以完成从通过学习阅读来模仿人类,到生成文本和总结大段文字的所有工作。根据一些深入的研究,如果LLM的规模很大,它将表现良好。通过在大量数据上训练这些模型,它们可以理解人类语言的语法、语义和语用。
OpenAI开发的热门大规模语言模型ChatGPT之所以发展如此之快,是因为采用了人类反馈强化学习(RLHF)等先进技术。通过RLHF,机器学习算法结合人工输入提高了模型的性能。它针对预先训练的LLM进行了微调,LLM用于开发聊天机器人、虚拟助理和其他任务。
此外,基于ChatGPT等LLMs的预训练基础模型也有了明显的改进。这主要是由于三个方面的变化:
1.实践证明,模型的缩放对提高其性能非常有帮助。以Pathways语言模型(PaLM)为例,该模型的性能受少射学习的扩展影响很大,它可以减少根据具体应用调整模型所需的具体任务训练实例的数量。
通过使用Pathways语言模型在6144 TPU v4芯片上扩展和训练5400亿个参数,PaLM已经证明了重复扩展的好处,这优于各种传统模型,显示了巨大的进步。因此,深度和宽度的扩展是提高基本模型性能的重要因素。
2.另一个变化是在预训练期间增加标记数量的过程。像Chinchilla(开源语言模型)这样的模型已经证明,通过添加预训练数据,大型语言模型的性能会更好。
龙猫是一个计算优化的模型。在同样的计算预算下,在70B的参数和比Gopher模型多4倍的数据训练下,Chinchilla的性能一致优于Gopher,甚至优于GPT-3、侏罗纪-1、威震天-图灵NLG等LLM。这清楚地描述了对于每个计算上最优的训练,标记的数量应该被相应地缩放-也就是说,模型大小的两倍,因此训练标记的数量应该加倍。
3.第三个变化是使用干净和多样化的预训练数据。卡拉狄加的表现证明了这一点。它是存储、混合和推理科学知识的大规模语言模型。经过几篇科学论文的训练,卡拉狄加的性能比GPT 3号和龙猫好。BioMedLM是另一种大规模语言模型,是用于生物医学文本的特定领域LLM,当训练特定领域的数据时,它显示出很大的性能改进。它清楚地表明,对特定领域的数据进行预训练比对一般数据进行训练更好。
结论LLMs的成功无疑是多种因素共同作用的结果,包括RLHF的使用和训练前基础模型的开发。这三个变化极大地影响了LLMs的性能。此外,GLaM (Common Language Model)通过使用稀疏激活的混合专家架构,以较少的训练成本扩展了模型的容量,从而显著提高了性能。因此,这些变化为更高级的语言模型开辟了道路,这将继续使我们的生活更容易。
温馨提示:注:内容来源均采集于互联网,不要轻信任何,后果自负,本站不承担任何责任。若本站收录的信息无意侵犯了贵司版权,请给我们来信,我们会及时处理和回复。
原文地址"一文了解 ChatGPT 等 LLMs 得到明显改进的 3 个变化":http://www.ljycsb.cn/qukuailian/246381.html。

微信扫描二维码投放广告
▲长按图片识别二维码