2026年,AI行业有一个越来越清晰的共识:模型能力还需要往上走,但训练成本不能再无止境堆砌了。从开发者到模型公司,大家关心的焦点已经从"谁家的模型更强"转向一个更务实的问题——同样多的GPU、同样长的训练时间,能不能跑出更多有效实验、吃进更多有效数据、拿到更好的loss和下游指标?
凭借Hermes Agent(14万Star)火速出圈的Nous Research团队,刚刚给出了自己的答案。他们提出了Token Superposition Training(TST),一种有望把大模型预训练成本压低一个量级的新训练方法。
过去几年,AI模型的训练遵循着一条简单粗暴的逻辑:更多数据、更多GPU、更长训练时间。这种"暴力出奇迹"的路径在短期内确实有效,但代价是惊人的——百亿参数级别的MoE模型,单次预训练耗费的B200-hours数以万计,普通人根本玩不起。
TST的核心思想是:在不改变模型架构的前提下,通过重塑训练方式大幅提升效率。 具体来说,TST让模型在训练过程中同时学习"重叠的token表示",而非传统方式下的独立token。Hermes团队做了一个百亿参数MoE实验(类Qwen3 10B-A1B MoE),结果非常直观:
• **Baseline**:训练1.05T tokens消耗12311 B200-hours
• **TST**:训练2T tokens仅消耗4768 B200-hours,约为baseline的**38.7%**
• **与此同时**,final loss从2.252降至2.236,HellaSwag、ARC-E、ARC-C、MMLU等基准测试也有提升
简单说:花四成的时间,跑两倍的tokens,效果反而更好。
TST的底层逻辑涉及token表示的空间复用。传统预训练中,每个token占据独立的向量空间位置,这意味着相似语义的token在训练时会产生大量冗余。而TST允许模型在训练阶段将语义相近的token映射到重叠的表示空间,从而实现训练信息密度的提升。
Hermes团队在论文《Efficient Pre-Training with Token Superposition》中指出,这种方法特别适合MoE架构。MoE的稀疏激活特性使得它在处理重叠token表示时比稠密模型更高效——因为专家网络可以自然地处理不同token簇之间的重叠关系,而不需要引入额外的正则化开销。
从实践角度看,TST的优势在于不需要对模型架构做任何修改。现有的MoE模型只需调整训练流程中的token处理方式,就能获得成本收益。这意味着已经训练好的模型,可以通过继续预训练阶段应用TST来"镀金",而不需要从头训练。
Hermes Agent本身以"自进化能力"著称——每次解决问题后自动生成可复用技能,越用越聪明。而TST的出现,给这种自进化提供了新的想象空间。
当模型训练成本大幅下降后,更频繁的模型迭代成为可能。对于Hermes Agent这样的AI Agent产品来说,这意味着:
• **Agent能力升级更快**:底层模型的频繁迭代,可以让Agent在相同时间内获取更强的推理和规划能力
• **垂直场景优化成本降低**:针对特定场景(如代码生成、工具调用)定制优化模型的门槛大幅下降
• **开源社区参与度提升**:更低的训练成本意味着更多研究者和独立开发者能够参与到大模型的改进中
值得注意的是,TST目前主要适用于预训练阶段,对于微调(SFT)和强化学习(RL)阶段的效果还需要进一步验证。Hermes团队在论文中也坦承,TST在指令微调场景下的表现尚未达到预训练阶段的效率提升水平。
TST的出现是AI行业从"暴力堆算力"向"精细化提效"转型的缩影。2026年以来,主流模型厂商纷纷在训练效率上发力:
• DeepSeek的MLA(Multi-head Latent Attention)架构,大幅降低了长上下文推理的内存占用
• 各大厂商探索的推测解码(Speculative Decoding),让推理阶段也能"花更少的钱跑更快的生成"
• 如今的TST,从预训练阶段给出了另一个答案
这种趋势对于整个AI Agent生态具有深远意义。当底层模型的训练和推理成本持续下降,AI Agent在垂直场景的落地门槛也会同步降低——不是靠降低模型质量换来的低成本,而是真正实现"又好又便宜"。
TST的价值不在于它彻底解决了训练成本问题,而在于它打开了一扇门:不改架构、不换模型,只改训练方式,就能把成本打下来。 对于正在探索商业化路径的AI Agent产品(如Hermes Agent、OpenClaw等)来说,TST意味着未来可以在相同算力预算下,完成更多轮次的模型迭代和能力升级。
论文链接:Hugging Face(搜索2605.06546)
*请认真填写需求信息,我们会在24小时内与您取得联系。