众所周知,定制产品的软件开发_定制产品的软件开发_参数量是机器学习算法的关键。在大规模参数量和数据集的支持下,简单的体系结构将远远超过复杂的算法。 在自然语言领域,股票软件开发定制公司_股票软件开发定制公司_被称为史上最强 NLP 的 GPT-3 拥有 1750 亿参数。近日,Google 将这一参数量直接拉高到了 1.6 万亿。 1 月 11 日,定制软件开发说明_定制软件开发说明_Google 在 arXiv 上发表论文《Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity》,提出了最新语言模型—Switch Transformer。
最后研究人员指出,软件开发小程序定制_软件开发小程序定制_虽然 Switch Transformer 改进了训练程序,并对稀疏模型进行了扩展的研究。但未来在此方向还有许多未完成的工作,软件开发与定制前十名_软件开发与定制前十名_如 进一步提高大型模型训练的稳定性。目前正在进行的方法有:正则化函数、适度的梯度裁剪等。 一般来说预训练越好,下游任务的效果也就越好,软件开发定制销售提成_软件开发定制销售提成_但在一些任务上发现,1.6T 参数的 Switch-C 会比较小模型的结果更低。 目前方法使用的同类专家,定制类信息化项目软件开发_定制类信息化项目软件开发_未来可尝试通过更灵活的基础结构支持异构专家。 调查 FFN 层之外的专家层,初步的证据表明,这同样可以改善模型质量。 目前的工作仅考虑了语言任务,未来可尝试将模型稀疏性类似地应用到其他模态(例如图像)或多模态中。 引用链接: https://arxiv.org/pdf/2101.03961.pdf https://venturebeat.com/2021/01/12/google-trained-a-trillion-parameter-ai-language-model/ https://arxiv.org/search/cs?searchtype=author&query=Fedus%2C+W (责任编辑:) |