当博客比论文更吃香:一篇技术贴如何敲开OpenAI的大门
当博客比论文更吃香:一篇技术贴如何敲开OpenAI的大门
科研的终极目标,难道真的只是那几篇发表在顶级期刊上的论文?我以前也这么认为,直到我看到了Keller Jordan的故事,才明白什么叫“实力胜于雄辩”。
最近,Hyperbolic的创始人Yuchen Jin在X上爆了个猛料:一位名叫Keller Jordan的研究员,竟然凭借一篇博客文章,成功进入了OpenAI,而且极有可能正在用他文章里提出的神经网络优化器——Muon——来训练GPT-5!
这简直是技术圈的“鲤鱼跃龙门”故事啊!想想那些苦熬数年、头发掉光,只为了在NeurIPS或者ICML上发一篇paper的博士们,是不是觉得有点扎心?
Jordan的这篇博客,标题是Muon:神经网络隐藏层的优化器。这篇发表于2024年12月的文章,犹如一颗深水炸弹,在圈内炸开了花。根据领英上的信息,Jordan也在同月加入了OpenAI,时间线高度吻合,很难让人不联想到这其中的联系。
那么,Muon到底有什么魔力,能让OpenAI如此青睐?简单来说,它针对深度学习训练中的隐藏层参数,提出了一种全新的优化方案。通过结合SGD动量和Newton-Schulz(NS)正交化步骤,Muon能够显著提升模型训练的效率和稳定性。
我在实验室也做过类似的实验,优化器的选择对模型训练的影响真的是太大了。不同的数据集、不同的模型架构,甚至不同的超参数,都可能导致优化器的性能差异巨大。我曾经为了优化一个图像识别模型,尝试了各种优化器,从传统的SGD到AdamW,再到各种变种,最后还是选择了AdamW的改进版本才勉强达到预期效果。
而Muon的厉害之处在于,它在CIFAR-10、NanoGPT等任务上刷新了训练速度纪录,甚至在训练15亿参数的语言模型时,相较于AdamW能缩短约三分之一的时间!这可不是一点点的提升,对于训练大规模语言模型来说,时间就是金钱啊!
Jordan的设计思路也很巧妙:他先利用SGD动量产生更新,再通过NS迭代进行正交化处理,让更新矩阵趋近半正交,从而减少主方向过度主导的情况,提升训练中“稀有方向”的学习效果。这种方式既省下了SVD计算的成本,也比Coupled Newton更适合在现代GPU的bfloat16精度下运行。
除了技术上的创新,Jordan还在文章中对学界的优化器研究现状提出了批判。他认为,很多声称能超越AdamW的研究,在实验设计和基线设定上都不够严谨,导致无法被业界采纳。他主张应将“具竞争性的训练任务”作为新方法的验证标准,以此提升方法的实用价值和可信度。
这一点我深有体会。很多学术论文的实验环境和数据都过于理想化,与实际应用场景存在很大的差距。这就导致了很多优秀的算法,在实际应用中却表现平平。
虽然目前OpenAI还没有官方证实Muon是否已经应用于GPT-5,但种种迹象表明,这项优化技术极有可能成为下一代大型语言模型训练流程中的重要组成部分。
Keller Jordan的故事告诉我们,真正的实力并不一定需要靠发表在顶尖期刊上的论文来证明。只要你的技术足够扎实,实验足够充分,即使只是一篇博客文章,也能对整个行业产生巨大的影响。
也许,下一个敲开OpenAI大门的人,就是你我!前提是,你得先写一篇足够惊艳的博客。毕竟,现在都流行“博客致富”了,不是吗?