Mid-Training 会成为未来的 Pre-Training 吗?_全国资讯网

Mid-Training 会成为未来的 Pre-Training 吗?


Mid-Training 会成为未来的 Pre-Training 吗?

  2025-11-26 10:41:02     简体|繁體
http://993113.com/1101244.html

(来源:机器之心)

机器之心PRO·会员通讯Week47

---本周为您解读③个值得细品的AI&Robotics业内要事---

1.Mid-Training会成为未来的Pre-Training吗?

OpenAI一年前就布局「Mid-Training」了?Mid-Training和预训练&后训练有什么关系?为什么Mid-Training定义不清晰却颇受关注?高校与企业研究者分别如何定义Mid-Training?非公式下Mid-Training有望成为下一个Pre-Training吗?...

2.从AppleM5到DGXSpark,LocalAI时代的到来还有多久?

DGXSpark从DGX-1的「云端起点」走到「桌面回迁」,LocalAI的拐点已到?AppleSilicon等硬件如何把本地工作负载变成可用体验?Ollama等用户级运行时叠加Gemma3等端侧模型供给,会催生什么样的本地产品形态?SLM和端侧芯片新架构的结合,会把消费终端LocalAI的能力边界推到哪一步?...

3.「人本主义超级智能」未来走得更远?微软为何选择亲自下场打造大模型?

通用AI能否杜绝模型递归式自我改进失控的风险?Transformer架构的「生命周期」已到尽头?动态认知和记忆增强如何实现下一轮AI的指数级飞跃?数据已枯竭,合成数据「管用」吗?下一代AI的差异化在能力还是个性?...

本期完整版通讯含3项专题解读+30项本周AI&Robotics赛道要事速递,其中技术方面10项,国内方面9项,国外方面11项。

本期通讯总计24903字,可免费试读至8%

消耗288微信豆可兑换完整本期解读(约合人民币28.8元)

要事解读①Mid-Training会成为未来的Pre-Training吗?

引言:OpenAI研究员NoamBrowm在2025年7月的播客中抛出「Mid-Training是新的Pre-Training」的言论,某种意义上证实了2024年7月OpenAI低调成立「Mid-Training」部门的传言,也让业界开始聚焦于这个介于预训练和后训练之间的环节。伴随越来越多的工作开始探索和完善「Mid-Training」概念,有思潮认为该技术确有可能成为LLM训练中不可或缺的阶段。

预训练&后训练之外,Mid-Training是最具潜力的非共识?

1、在LLM的热点聚焦于预训练和后训练时,有报道指出OpenAI、xAI都在2024年悄然设立「中期训练」(Mid-Training)部门。

①法国研究实验室&咨询公司PleiasAILab的研究员AlexanderDoria梳理发现,OpenAI在2024年7月低调成立了一个「中期训练」(Mid-Training)部门,负责改进OpenAI的「旗舰模型」,成果包括GPT4-Turbo和GPT-4o,团队贡献显著。[1-1]

②AlexanderDoria引述的招聘信息已被删除,但当前OpenAI当前的招聘页面中,SafetySystemsteam的职位描述中直观包含「通过有针对性的预训练和mid-Training干预措施,使后续的协调工作更加有效和高效。」[1-2]

③xAI也被报道在不同渠道的招聘说明中阐述了对Mid-Training人才的需求。[1-3][1-4]

④同在2024年,微软、零壹万物等机构的研究论文中接连提及对「Mid-Training」不同程度的投入。

2、「Mid-Training」在字面上与「Pre-Training」「Post-Training」高度关联,且有工作将其描述为介于两者之间的环节。然而,截止2024年底,不同工作对该术语的定义、理论和算法实现存在诸多差异。

3、2025年以来,越来越多工作提及「Mid-Training」,导致业界对这个概念的关注持续升温。也有思潮认为,「Mid-Training」有希望成为像预训练和后训练一样重要的训练范式。

①2025年7月,OpenAI研究员NoamBrown在播客中将Mid-Training描述为「新的Pre-Training」。他表示,当前的预训练模型就像能衍生出其他模型的半成品,mid-training就像是派生时的预训练,post-training则完成最终的细化与优化。[1-5]

②NoamBrown称,mid-training是通过某些有趣的方式为模型添加新的能力或特性的一种手段,与预训练和后训练间的界限非常模糊,难以给出严谨定义,但它不同于pre-training中对大规模语料的广泛学习,也不是post-training中针对具体用途的微调,而是一个独立阶段,可以拓展模型的泛化能力和实用性。[1-5]

从有趣的技巧到必要环节,Mid-Training到底是什么?

1、Mid-Training的概念仍未得到明确的共识,但业界陆续涌现的探索工作从不同层面验证了Mid-Training的效果、机制和理论支撑。

2、北大和美团的研究者在10月底发布综述「ASURVEYONLLMMID-TRAINING」,尝试明确当下Mid-Training的定义,并通过数据管理、训练策略和模型架构优化框架三个层面探讨现有的Mid-Training工作。[1-6]

①该综述将Mid-training定义为衔接预训练和后训练之间的一个关键阶段(vitalstage),其特点是使用的中间数据(intermediatedata)和计算资源(computationalresources)。

②Mid-training阶段的定位在于系统地增强LLM的特定能力(如数学、编程、推理、长上下文扩展),且必须保持模型基础能力不下降。

表:Mid-Trainning的优化策略概括[1-6]

3、虽然大多探索都在过往一年多的周期中出现,但「Mid-Training」并非2024新出现的词汇。其词源最早可以追溯到GoogleResearch的ACL2020论文「BLEURT」和该团队后续的WMT2020研讨会论文。

海量资讯、精准解读,尽在新浪财经APP 来源:头条娱乐

分享到:

  • 上一篇
    下一篇

  • 全国资讯网

    全国资讯网(第一时间发布热点话题娱乐平台)
    993113.com

    全国资讯网,分享全球新闻、热点资讯的实事报道门户,即时提供实用的致富创业项目、资讯新闻、金融投资、竞技游戏、健康教育、电商直播、微商指南、生活常识、公正的项目评鉴,实用性佳、内容社区。

    最新资讯

    一塌再塌!打人、带闺蜜回家睡觉!短剧初代男顶流再曝丑闻
  • 2026-04-07 10:04:25

     

    撒贝宁之父撒世贵:老伴去世后坚决不再嫁,晚年独居武汉有心结
  • 2026-04-07 09:55:21

     

    胡兵没想到,张雪峰意外猝死仅24小时,竟让51岁瞿颖口碑再次暴涨
  • 2026-04-07 09:46:18

     

    糊视频让三大顶流躺枪!私人别墅聚会变商K疑云,郭麒麟辟谣KTV传闻
  • 2026-04-07 09:37:15

     

    杨颖与网红韩安冉同框,发型、衣服撞衫宛如亲姐妹,网友:掉价
  • 2026-04-07 09:28:12

     

    首播5集,迪丽热巴新剧又惊艳了,他出场弃剧声一片,差评满天飞
  • 2026-04-07 09:10:05

     

    军号被粉底液将军粉丝围攻,编剧汪海林发声:真是无法无天
  • 2026-04-07 09:01:02

     

    “吉”刻启程 “青”凉一夏 吉林机场集团2026夏航季青岛推介会启幕
  • 2026-04-07 08:51:59

     

    大志的“大志”:未开机便“入戏”丨原来你是这样的河南
  • 2026-04-07 08:42:56

     

    没想到,53岁的郭德纲,因为郭麒麟的这一举动,体面被“撕”碎
  • 2026-04-07 08:33:53

     

    郭麒麟刘昊然被曝组团逛商K!郭麒麟回应引争议,全是破绽太离谱
  • 2026-04-07 08:24:49

     

    郑少秋四个女儿命运悬殊,有人自尽有人抑郁有人被宠大
  • 2026-04-07 08:15:46

     

    倒追大23岁男友,却又亲手把对方“逼走”,如今46岁胖到不敢认
  • 2026-04-07 08:06:43

     

    67岁麦当娜威尼斯惊艳亮相,与小35岁女星同框似姐妹,冻龄状态极佳
  • 2026-04-07 07:57:39

     

    复婚二胎传闻7个月后,赵丽颖近况曝光,恶意抹黑无底线
  • 2026-04-07 07:48:36