智东西6月16日消息,今天,AI云服务商Hyperbolic的联合创始人兼CTO Yuchen Jin在社交平台X上曝料:研究员Keller Jordan仅凭一篇博客文章就加入了OpenAI,并可能正用博客提及的神经网络隐藏层的优化器Muon训练GPT-5。
“许多博士(包括以前的我)都陷入了这样一个误区:认为在顶级会议上发表论文才是最终目标。但发表论文≠影响力。Muon只作为一篇博客文章发布,它让Keller加入了OpenAI,他现在可能正在用它训练GPT-5。”Yuchen Jin说。
从职场社交平台领英可知,Keller Jordan正是在2024年12月加入OpenAI,由此我们也可以推测他正是凭去年12月发布的一篇博客,成功进入了如日中天的头部大模型企业。
这篇博客厉害在那儿?Muon凭什么成为OpenAI的敲门砖?让我们从这篇博客文章内容说起。
Muon是神经网络隐藏层的优化器。它被用于NanoGPT和CIFAR-10的快速运行,刷新了当时训练速度的记录。
Keller Jordan的博客文章主要关注Muon的设计。首先他定义了Muon并概述其在当时已取得的实证结果;然后他详细讨论了Muon的设计,包括与先前研究的联系以及对其工作原理的最佳理解;最后他讨论了优化研究中的证据标准。
具体来说,Muon是一个针对神经网络隐藏层二维参数的优化器,其定义如下:
使用Muon训练神经网络时,应使用AdamW等标准方法优化网络的标量和矢量参数以及输入层和输出层。Muon可用于四维卷积参数,方法是将其最后三个维度展平。
1、将CIFAR-10上的训练速度记录提高到94%准确率,从3.3秒提高到2.6秒。
2、将FineWeb(一项称为NanoGPT快速运行的竞赛任务)上的训练速度记录提高至3.28 val loss,提高了1.35倍。
4、在HellaSwag上用10个8xH100小时训练了一个1.5B参数转换器,使其达到GPT-2 XL级别的性能。使用AdamW达到相同结果则需要13.3小时。
此外,以下是Muon和AdamW在训练15亿参数语言模型时的对比。两个优化器均已进行调整。
Muon通过采用SGD-momentum生成的更新来优化二维神经网络参数,然后在将它们应用于参数之前,对每个更新应用 Newton-Schulz (牛顿-舒尔茨迭代法,简称NS)迭代作为后处理步骤。
换句话说,NS迭代实际上用最接近的半正交矩阵替换了SGD-momentum的更新矩阵。
为什么正交化更新可行?出于实证研究的动机,作者基于人工检验观察到,SGD-momentum和Adam对基于Transformer的神经网络中的二维参数产生的更新通常具有非常高的条件数。也就是说,它们几乎是低秩矩阵,所有神经元的更新仅由少数几个方向主导。
作者推测,正交化有效地增加了其他“稀有方向”的规模,这些方向在更新中幅度较小,但对学习仍然很重要。
除了NS迭代之外,还有其他几种方法可以对矩阵进行正交化。但作者没有使用其中两种方法,他是如何排除的?
一个是SVD方法,它太慢了,所以作者没有使用它。另一个是Coupled Newton iteration (耦合牛顿迭代法),它必须至少以float32精度运行才能避免数值不稳定,这导致它在现代GPU上运行速度较慢,所以作者也没有采用。
相比之下,作者发现NS可以在bfloat16中稳定运行,因此选择它们作为正交化更新的首选方法。
在Keller Jordan的实验中,当使用具有调整系数的Muon来训练Transformer语言模型和小型卷积网络时,只需运行5步NS迭代就足够了。
此外,Keller Jordan还分析了Muon的运行时间和内存要求。对于典型的语言训练场景,无论规模大小,Muon的FLOP开销都低于1%。
根据设计,Muon仅适用于二维参数,以及通过展平的卷积滤波器,因此网络中其余的标量和矢量参数必须使用标准方法(例如 AdamW)进行优化。
根据经验,Keller Jordan发现使用AdamW优化输入和输出参数也很重要,即使这些参数通常是二维的。具体来说,在训练Transformer时,应该将AdamW用于嵌入层和最终分类器头层,以获得最佳性能。嵌入层的优化动态应该与其他层不同,这遵循模块化范数理论。输出层的这种动态也不同,这似乎并非来自理论,而是由经验驱动的。
另一个纯经验性的结果是,在他们测试的所有案例中,使用 Nesterov式动量对Muon的效果都比普通的SGD动量略好。因此,他们在公开的Muon实现中将其设为默认设置。
第三个结果是,如果将Muon分别应用于变压器的Q、K、V参数,而不是一起应用于变压器,则Muon可以更好地优化变压器,因为对于将QKV参数化为输出被分割的单个线性层的变压器实现,默认做法是将它们一起应用。
Keller Jordan认为,神经网络优化研究文献目前大多充斥着一堆已死的优化器,它们声称能够击败AdamW,而且往往以巨大的优势获胜,但却从未被社区采用。鉴于业界在神经网络训练上投入了数十亿美元,并渴望降低成本,他们可以推断,问题出在研究界,而非潜在的采用者。
Keller Jordan犀利地提出:这项研究出了问题。仔细研究每篇论文后,他们发现最常见的罪魁祸首是糟糕的基线:论文在将其与新提出的优化器进行比较之前,往往没有充分调整AdamW基线。
发表声称有巨大改进但无法复制/达到宣传效果的新方法,浪费了大量个人研究人员和小型实验室的时间、金钱和士气,他们每天都在为复制和构建此类方法的失败而感到失望。
为了纠正这种情况,Keller Jordan建议采用以下证据标准:研究界应该要求,只要有可能,神经网络训练的新方法就应该在竞争性训练任务中取得成IM电竞,IM电竞官网,IM电竞注册,电竞投注平台,电竞博彩,英雄联盟竞猜功。
竞争性任务通过两种方式解决了基线欠调问题。首先,竞争性任务的基线是先前的记录,如果该任务很受欢迎,则很可能已经经过了良好的调整。其次,即使在先前记录未经过良好调整的不太可能发生的情况下,也可以通过新的记录进行自我修正,将训练恢复到标准方法。
通过定义、拆解设计及实证研究,Keller Jordan发现了Muon神经网络隐藏层的优化器具备优于AdamW的效率。通过最新曝料可知,这一技术很有可能成为OpenAI正在研究的GPT-5的重要部分。
Keller Jordan也提出了一些尚未解决的问题。包括:Muon可以扩展到更大规模的训练吗?是否有可能在大型GPU集群中正确分布Muon使用的Newton-Schulz迭代?Muon是否仅适用于预训练,而不适用于微调或强化学习工作负载?或许在GPT-5的研究中,作者已经知道了这些问题的答案。
06月09日,中国驻加拿大使馆发言人驳斥加媒诬蔑中国的报道,同上一堂国家安全教育课个人 篇15,韩国分分彩官方网。
06月09日,“春之声·金梦想”春节文化交流系列活动走进尼泊尔孟加拉国,
为此,乡党委政府对今年迎省、市检查要坚决贯彻一个原则:不再听汇报,不再问原因,不再看过程,只看实际的效果,只看最终的结果,在哪个环节上出了问题,将要倒追有关责任人的责任,并一追到底,坚决实行顶格处理。工作上要问责,经济上要处罚。凡在省、市迎检中对顺利过关的样本点村,奖励该村有功人员和驻村领导驻村干部各X元,对出现失误的分别予以对等处罚X元,村计生专干绩效内计生办考核(绩效)。
人生只有一次,我们怎么能不珍惜他?俗话说:水火无情,这一点也没错。人们在不经意间就酿成了灾难。我们的身边处处离不开火,做饭需要火,烧水需要火。自从古人发明了钻木取火,人类才吃上了热的食物,在冬天刺骨的寒风中得到了温暖。
一群大人打趣,开着玩笑,告诉小不点,将来强大后别忘了石村,捉一头真正的太古凶兽幼崽回来,镇守这里。
06月09日,【锚定现代化 改革再深化】“共享车间”助力河北产业集群不断发展,
“呀,发生了什么?”正在树下跟三头幼鸟玩耍的小不点抬头,露出吃惊的神色。
让我们来看看破坏环境的恶果吧,据了解人类仅用 40年,就让上百种生物,植物灭绝了。现在还有上千种生物,植物濒临灭绝。现在几乎每一个小时就有几十种动物被贴上灭绝的死亡标签,因为破坏,污染。许多动物发生了基因变异,比如西班牙的双头蛇,澳洲的两头三眼蜥蜴……有些动物变异之后,对人类也产生了巨大威胁。日本东南沿海海域的巨型蜘蛛蟹,是由蜘蛛蟹变异而来,异常凶狠。在非洲,有一种有欧洲蜂变异的巨蜂,所到之处,所有生命无一生存。同时,因为过度砍伐,许多植物的现状也不容乐观。比如,珍贵的红木。就因为大肆砍伐,濒临绝种。
时事4:十六浦线日,贵州仲夏时节田园美,巨兽争霸,一群强横生物剧烈冲击,都想得到狻猊的尸体,吞食掉后让自己进化为山林中的霸主。,1分钟一期彩票下载,宝马会娱乐官网,雷速体育下载不了了。
新闻信息服务许可证音像制品出版许可证广播电视节目制作经营许可证网络视听许可证网络文化经营许可证山东省互联网传媒集团主办联系电话 违法不良信息举报电话