1. 首页
  2. 创业资讯

谷歌发布最大语言模型:等于9个GPT-3训练成本却低得多

这一讲话模子恰是Switch Transformer,自称是迄今为止最大的模子,其预教练速率是谷歌以前斥地的最大讲话模子(T5-XXL)的4倍。与此同时,此次也初度浮现了大型疏落模子(参数目惊人,但阴谋本钱恒定)也能够用较低精度的方式举办教练。

简略来说,便是正在一个更大的模子内保存众个专家,或特意从事差别劳动的模子,并由一个“门控收集”为任何给天命据采选筹商哪些专家。

谷歌发布最大语言模型:等于9个GPT-3训练成本却低得多

Switch Transformer的立异之处正在于,它有用诈欺了极少硬件,譬喻GPU和谷歌的TPU等为众多矩阵乘法策画的硬件。

正在漫衍式教练创立中,模子的疏落激活层正在差别摆设上分拨独一的权重。于是,模子权重随摆设数目的扩大而扩大,同时正在每个摆设上维持可料理的内存和阴谋空间。

谷歌发布最大语言模型:等于9个GPT-3训练成本却低得多

接着,商酌职员行使了32个TPU内核正在一个数据集上预教练了几个差别的Switch Transformer模子。

商酌职员给这些模子安排了劳动,譬喻,正在有15%单词被笼罩的段落中预测有缺失的单词;检索文向来答复题目。

谷歌发布最大语言模型:等于9个GPT-3训练成本却低得多

商酌职员外现,他们具有2048个专家体系的1.6万亿参数模子(Switch-C)“全体没有不牢固性”,其速率比拟于T5-XXL模子擢升了4倍。

另外,商酌者还将模子与T5-Base和 T5-Large举办了比较,结果阐明,正在雷同的阴谋资源下,新模子预教练速率有最高7倍的擢升。

谷歌发布最大语言模型:等于9个GPT-3训练成本却低得多

商酌职员外现,大型疏落模子可用于创筑较小的群集模子,正在劳动前进行微调,其质地增益为大型模子的30%。

谷歌发布最大语言模型:等于9个GPT-3训练成本却低得多

从团体结果上看,Switch Transformer 模子正在众项推理和常识劳动中带来了明显功能擢升。这注脚该模子架构不但对预教练有效,还能够通过微调将质地改善转移至下逛劳动中。

咱们无法全体保存模子质地,但通过将咱们的疏落模子提炼成群集模子,能够完成10到100倍的压缩率,同时完成约30%的专家模子的质地增益。

正在将来的事务中,商酌职员企图将Switch Transformer运用于差别模态或众模态模子,包罗图像和文本。

原创文章,作者:网赚家园,如若转载,请注明出处:http://www.gytcc.com/98004.html

联系我们

在线咨询:点击这里给我发消息

邮件:@qq.com