Google推出了具有1.6万亿个参数的人工智能语言模型,打破了GPT-3记录

古老的谚语说:“如果您读了300首唐诗,您会唱歌,如果您不知道怎么写诗”。

这句话也非常适用于当前的人工智能语言模型。

以前,OpenAI研究人员开发了“ GPT-3”,它是一种由1,750亿个参数组成的AI语言模型。

它可以称为有史以来最大的语言模型。

它可以执行原始类比,生成配方,甚至完成基本的代码编写。

今天,这个记录已被打破。

最近,Google研究人员开发了一种新的语言模型,其中包含超过1.6万亿个参数。

这是迄今为止最大的人工智能语言模型。

它比Google以前开发的语言模型T5-XXL大4。

时间。

参数是机器学习算法的关键。

它们是从历史训练数据中学到的模型的一部分。

一般来说,参数数量与语言领域的复杂度之间的相关性非常好。

这类似于GPU中的晶体管数量。

在相同的制造过程中,晶体管越多,计算能力越强,语言模型包含的参数越多,它与人类自然语言的距离就越近。

正如研究人员在论文中指出的那样,大规模训练是建立强大模型的有效方法。

在大数据集和参数计数的支持下,简单的体系结构远远超过了更复杂的算法。

但是,有效的大规模培训需要大量的计算。

这就是为什么研究人员热衷于他们所谓的“开关变压器”,即“稀疏激活”。

仅使用模型权重的子集或在模型中转换输入数据的参数的技术。

“开关变压器”指的是“开关变压器”。

是最早在1990年代初提出的人工智能模型的一个例子。

基本上,这意味着将多个专门处理不同任务的专家或模型放置在较大的模型中,并且存在“门控制网络”。

“选择要咨询任何给定数据的专家。

在一项实验中,研究人员使用了32个TPU内核来对数个不同的“开关变压器”进行预训练。

楷模。

这些TPU内核位于从Reddit,Wikipedia和其他Internet来源收集的750GB文本数据的语料库中。

在其中,任务是使这些模型预测丢失的单词(其中涵盖了该段落中15%的单词)以及其他挑战,例如检索文本以回答一系列日益棘手的问题。

根据研究人员,包含1.6万亿个参数和2048名专家的Switch-C模型显示“完全没有训练不稳定性”。

但是,在Sanford问答数据集的基准测试中,Switch-C的得分实际上低于Switch-XXL的得分,后者仅包含3950亿个参数和64位专家。

研究人员认为,这是因为进行了微调。

由于质量,计算要求和参数数量之间的不透明关系。

在这种情况下,“开关变压器”被称为“开关变压器”。

为下游任务带来了一些好处。

例如,研究人员声称,使用相同数量的计算资源,它可以将训练前的加速度提高7倍以上。

他们还证明了“稀疏激活”的存在。

该技术可用于创建更小,更密集的模型,这些模型可以微调任务,质量提高了较大模型的30%。

在这方面,他们说:尽管这项工作主要集中在超大型模型上,但我们还发现只有两个专家模型可以提高性能并轻松适应通用GPU或TPU的内存限制。

另外,通过将稀疏模型提取为密集模型,可以实现10到100倍的压缩率,同时可以获得专家模型大约30%的质量增益。

在另一项测试中,“开关变压器”被用作开关。

该模型经过训练可以在100多种不同的语言之间进行翻译。

研究人员观察到了“总体改善”。

在101种语言中,有91%的语言受益于比基准模型速度快4倍以上。

将来,研究人员还计划将“开关变压器”应用于电动汽车。

到新字段,例如图像和文本。

他们认为,模型稀疏性可以在各种不同的媒体和多模式模型中赋予优势。

美中不足的是研究人员。

这项工作没有考虑这些语言模型在现实世界中的影响。

例如,模型通常会放大某些公共数据中的偏差。

在这方面,OpenAI指出,这可能导致将“顽皮”放置在游戏中。

接近女性代词;放置“伊斯兰”接近“恐怖主义”之类的词;等等。

根据Middl

联系方式

自1984年起,久尹开始研发并制造质量可靠的电子元件及相关设备 并以创新的设计技术在机械设备上增加良好的使用者界面,因此成为全球被动零件领域的知名设备制造商。 久尹一直凭借着诚实、负责与积极的心态去克服各项挑战,让团队得以建立核心能力与价值。久尹的团队拥有机械设计技术、实际的全球性代工经验、优质的概念以及与国际市场的交流及互动能力。这些竞争优势为久尹及其所有的合作伙伴提供了亮丽的未来,并能够在多变的环境与市场下继续保持领先地位。

查看详情

在线咨询