深圳网站建设公司!

深圳网站建设公司

当前位置: 深圳网站建设公司 > 互联网 > 文章页

定制产品的软件开发_定制产品的软件开发_首个万亿级模型:谷歌推出语言模型 Switch Transf

时间:2021-01-13 23:29来源: 作者:admin 点击: 4 次
众所周知,定制产品的软件开发_定制产品的软件开发_参数量是机器学习算法的关键。在大规模参数量和数据集的支持下,简单的体系结构将远远超过复杂的算法。在自然语言领域,股票软件开发定制公司_股票软件开发定制公司_被称为史上最强 NLP 的 GPT-3 拥有 1750 亿参数。近日,Google 将这一参数

众所周知,定制产品的软件开发_定制产品的软件开发_参数量是机器学习算法的关键。在大规模参数量和数据集的支持下,简单的体系结构将远远超过复杂的算法。

在自然语言领域,股票软件开发定制公司_股票软件开发定制公司_被称为史上最强 NLP 的 GPT-3 拥有 1750 亿参数。近日,Google 将这一参数量直接拉高到了 1.6 万亿。

1 月 11 日,定制软件开发说明_定制软件开发说明_Google 在 arXiv 上发表论文《Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity》,提出了最新语言模型—Switch Transformer。

产品定制系统的软件开发_产品定制系统的软件开发_Switch Transformer 模型是具有可扩展性的高效自然语言处理模型,它通过简化 MoE,比较好的软件开发与定制_比较好的软件开发与定制_形成了快速理解、训练稳定且比同等大小模型更有效的样本体系结构。实验证明,这些模型在不同的语言任务和训练模式中都表现了出色的性能,定制棋类软件开发_定制棋类软件开发_包括预训练、微调和多任务训练。同时,这些结果也让训练具有上千亿、上万亿参数量的模型成为可能。

最后研究人员指出,软件开发小程序定制_软件开发小程序定制_虽然 Switch Transformer 改进了训练程序,并对稀疏模型进行了扩展的研究。但未来在此方向还有许多未完成的工作,软件开发与定制前十名_软件开发与定制前十名_

进一步提高大型模型训练的稳定性。目前正在进行的方法有:正则化函数、适度的梯度裁剪等。

一般来说预训练越好,下游任务的效果也就越好,软件开发定制销售提成_软件开发定制销售提成_但在一些任务上发现,1.6T 参数的 Switch-C 会比较小模型的结果更低。

目前方法使用的同类专家,定制类信息化项目软件开发_定制类信息化项目软件开发_未来可尝试通过更灵活的基础结构支持异构专家。

调查 FFN 层之外的专家层,初步的证据表明,这同样可以改善模型质量。

目前的工作仅考虑了语言任务,未来可尝试将模型稀疏性类似地应用到其他模态(例如图像)或多模态中。

引用链接:

https://arxiv.org/pdf/2101.03961.pdf

https://venturebeat.com/2021/01/12/google-trained-a-trillion-parameter-ai-language-model/

https://arxiv.org/search/cs?searchtype=author&query=Fedus%2C+W

(责任编辑:)
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名:
发布者资料
查看详细资料 发送留言 加为好友 用户等级: 注册时间:2021-01-28 02:01 最后登录:2021-01-28 02:01
栏目列表
推荐内容