新疆护角胶厂哈佛揭开"训练越多越好"的迷思: AI生物理模型的三阶段炼成法则

你的位置：任丘市奥力斯涂料厂 > 产品中心 > 新疆护角胶厂哈佛揭开"训练越多越好"的迷思: AI生物理模型的三阶段炼成法则

新疆护角胶厂哈佛揭开"训练越多越好"的迷思: AI生物理模型的三阶段炼成法则

时间：2026-07-01 20:57:38 点击：65 次

这项由哈佛大学联谷歌DeepMind与谷歌研究院共同完成的研究，以预印本形式于2026年6月15日发布在arXiv平台，论文编号为arXiv:2606.16517。研究涵盖了过100个生物理模型的系统训练与评估实验，是目前针对生物域AI后训练阶段为系统入的对照研究之。

生物医学AI是当下热门的研究前沿之。我们已经看到各种AI系统声称能够预测蛋白质结构、识别致病基因、帮助寻找药物靶点。然而，这些系统背后有个几乎从未被认真追问的问题：把模型训练得越久、喂给它越多数据，它真的会变得越来越聪明吗？

现实情况远比这复杂。哈佛大学的研究团队花了大量时间，系统地训练和测试了过100个生物理模型，用覆盖DNA、RNA和蛋白质三种生物分子类型的任务，严格验证了每个训练阶段究竟对模型能力产生了什么影响。他们的结论颠覆了很多人的直觉：多的训练，不定带来好的泛化能力；关键在于训练的式，以及不同训练阶段如何搭配组。

要理解这项研究，可以用烹饪作为贯穿始终的类比。训练个能真正"理解生物学"的AI，就像培养位有真才实学的大厨，而不只是个能背菜谱的机器人。研究团队想搞清楚的是：学厨的三个阶段——基础烹饪理论课、反复练习固定菜谱、以及在不同餐厅临场发挥——各自对大厨终的本事有什么影响？练得越多，在陌生厨房里就越厉害吗？答案并不那么简单。

、为什么生物学是测试AI泛化能力的"难考场"

在数学和编程域，当你训练AI解数学题，大多数"陌生题目"其实跟训练题有相似的结构，只是换了数字或变量名。但生物学不样。在生物世界里，条没见过的代谢通路、种未曾研究过的、个来自不同物种的蛋白质，可能涉及的是不同的生化机制和分子互动逻辑。就好比你在中餐厅学会了炒菜，未就知道怎么做法式酱汁——两者的底层逻辑差异可能远表面看起来的样子。

这意味着，个在训练集上表现的生物AI模型，换到它没见过的生物系统时，很可能直接"翻车"。而且棘手的是，你在熟悉的题目上练习越多，模型可能越来越擅长"认菜谱"，而不是真正学会"做菜的道理"。这种现象研究团队称之为"过度化"——模型越来越适应训练数据的分布，却离真实生物世界的复杂多样越来越远。

研究团队为三类任务分别设计了严格的"熟悉"（域内）和"陌生"（域外）测试。域内测试就像考你在训练餐厅里做过的菜，域外测试则是把你扔到个陌生的厨房，让你用没见过的食材做没做过的料理。这种区分让他们能够精确捕捉到：每轮额外训练，究竟是让AI真的聪明了，还是只是擅长考试了。

二、三位"训练教练"各司其职，却并非缺不可

研究团队把训练分成三个依次进行的阶段，分别对应不同的目标和。

个阶段叫做"持续预训练"（CPT）。在这阶段，模型并不去做具体的生物学任务，而是大量阅读各类生物学文本——论文摘要、科普文章、业文献等等。这就像大厨入行前先花时间广泛阅读食谱书、了解食材知识、建立对烹饪世界的基础认知，而不是上来就开火炒菜。这个阶段培养的是"生物语言感觉"，让模型理解蛋白质、基因、通路这些词汇的上下文含义。

二个阶段叫做"监督微调"（SFT）。这是直接的"题海战术"训练：给模型看大量标准的问答样本，让它学着模仿正确答案的形式和内容。比如"这个基因突变会引发什么"，然后给出标准答案，让模型反复学习。这就像让大厨反复练习同批经典菜肴，直到动作娴熟、出品稳定。

三个阶段叫做"强化学习"（RL）。这个阶段不再给模型看标准答案，而是让它自己尝试给出答案，然后根据答案的好坏给予惩反馈，驱动模型不断改进。这就像让大厨在真实的评分比赛中历练，通过客人的即时反应来磨练真正的临场判断力，而不是背书本答案。

三个阶段听起来顺理成章，但研究团队真正想弄清楚的是：这三个阶段是不是简单地"叠加"就能带来好的果？每增加个阶段，模型是否都在变得好？

三、监督微调是把双刃剑：学得越多，却越"固执"

研究团队进行了系列精心设计的实验，每次只改变个变量，保持其他条件不变。关于监督微调阶段的发现是整项研究中出人意料的部分之。

在固定训练数据量、只增加训练轮次的情况下，研究团队发现了个清晰的规律：随着训练轮次的增加，模型在熟悉题目上的表现持续提升，但在陌生题目上的表现却在某个节点之后开始下滑。以DNA通路预测任务为例，个模型在训练了1轮之后，熟悉题目的准确率约为68，陌生题目约为68，两者旗鼓相当。但随着训练增加到16轮，熟悉题目的准确率爬升到了90，而陌生题目的准确率在2到4轮时达到了约73的峰值，此后便开始回落，终跌回到68左右。

用烹饪来解释这个现象非常直观。个大厨如果在同餐厅里反复练习同批菜，练到后来他确实越来越擅长做这几道菜，但他对这餐厅的食材、火候、摆盘习惯产生了度依赖。把他换到别的厨房，他可能反而比刚入行时不适应——因为他已经把"这餐厅的做法"当成了"做菜的真理"。这种现象在生物学AI里尤其危险，因为真正有价值的是模型能否在陌生的生物系统里保持理能力。

这个发现在RNA药物靶点识别和蛋白质预测任务中同样出现，甚至表现得为明显。RNA实验中，模型陌生任务的准确率从峰值到训练结束时下降了约18个百分点，且下降过程几乎是单调连续的，而不是在某个点达到平台后维持稳定。

研究团队还做了另组实验：保持训练轮次固定为1轮新疆护角胶厂，但逐步增加训练数据量。结果发现，这种式比增加训练轮次要"温和"得多。随着数据量从4000个样本增加到20000个，模型在陌生题目上的表现基本呈现稳定上升或平台趋势，而不会出现先升后降的崩塌现象。这说明，同样多的训练力，花在"看多不同例子"上，比花在"反复看同样的例子"上，对泛化能力的伤害要小得多。

研究团队将这个核心发现归纳为：监督微调能快速提升模型在训练分布上的表现，但随着训练度增加，模型会逐渐收缩到训练数据的分布范围内，失去面对生物多样时的灵活。

四、强化学习是解药，但需要在正确的时机服用

既然监督微调会造成"过度化"，强化学习能不能修复这个问题？研究团队的答案是肯定的——但有条件。

研究团队从每个任务中挑选出监督微调的佳检查点（也就是陌生任务表现好时的模型状态），然后在此基础上继续进行强化学习训练，观察结果如何变化。实验结果相当令人鼓舞：在DNA、RNA和蛋白质三种任务上，强化学习几乎都同时提升了熟悉任务和陌生任务的表现，而且陌生任务的提升幅度往往大。

以蛋白质预测任务为例，从1轮强化学习到佳检查点，陌生任务的评分（F值，用于衡量预测质量）提升了约0.08个对值，这在生物信息学域是相当可观的进步。重要的是，强化学习带来的并没有以牺牲熟悉任务表现为代价——两个向都在变好，只是陌生向的进步显著。

还有个规律值得注意：强化学习的收益集中在初几轮。也就是说，1轮的提升明显，之后每增加轮，额外收益就越来越小。这就像个大厨在真实比赛中的前几场历练获益大，之后提升逐渐趋缓。这个规律给出了个实用的操作建议：强化学习不需要限增加，在适的时机停止反而是明智之举。

然而，研究团队也发现，强化学习的果度依赖于出发点的质量。如果监督微调阶段做得太差，直接进入强化学习，模型可能法从反馈信号中有学习。好比个连基本刀工都没学会的厨师去参加评分比赛，没有任何基础的话，客人的评分对他来说也是噪音，不知道怎么改进。强化学习需要个"够好的监督微调起点"，万能胶厂家才能发挥出真正的威力。

五、被低估的准备工作：持续预训练是隐形的地基

在三个训练阶段中，持续预训练往往是容易被忽视的环，因为它不直接解决任何具体任务，看起来像是"绕路"。但研究团队的实验数据清楚地表明，这个"绕路"阶段对后续切训练的质量都有远影响。

在DNA和RNA实验中，研究团队分别比较了"有持续预训练"和"没有持续预训练"两条路线下的终模型表现。结论是：持续预训练在几乎每个后续训练阶段都带来了可见的提升，但这个提升的幅度因阶段不同而差异巨大。在监督微调阶段，相对有限；但在强化学习阶段，尤其是在陌生任务上，持续预训练的加持带来了显著大的收益。

对于规模较小的模型（如参数量为17亿的版本），这个果尤为明显。在DNA任务的陌生测试中，有持续预训练的模型比没有预训练的版本整体提升了约0.2个准确率单位——这不是小数字。研究团队的解释是：没有经过生物学语言熏陶的通用语言模型，在面对监督微调和强化学习时，需要同时学习三件事：生物学语言规范、任务的格式要求、以及真正的理逻辑。把三件事同时塞给模型，每件事都学得不够透彻。持续预训练先把"生物学语言感觉"建立起来，让后续训练可以注于层次的理能力培养。

这个发现特别适用于计资源有限的研究团队：与其把全部预花在反复监督微调上，不如先拨出部分力做持续预训练，为后续的强化学习好地基，终的陌生任务表现往往好。

六、大的模型只是把上限抬，并不改变游戏规则

个自然的疑问是：如果换用强大的基础模型，上述这些规律是否还成立？研究团队在RNA任务上门针对这个问题做了实验，额外引入了谷歌DeepMind的Gemma 4 E2B模型作为对照，与两个Qwen3系列模型（1.7亿和4亿参数）起比较。

结果颇具说服力。不同底层模型的对表现存在差异——强的基础模型确实能达到的能上限。但训练动态的基本形态保持致：监督微调仍然致熟悉任务提升、陌生任务先升后降的模式，强化学习仍然有地陌生任务表现。Gemma模型在某些情况下的强化学习阶段表现得为平稳，不像较小的Qwen模型那样在开始强化学习时会出现短暂的能回落，但这只是幅度和流畅度上的差异，而非本质规律的改变。

用烹饪来类比：把个普通人和个天赋异禀的厨艺学徒放在同样的培训流程里，天赋好的那个终水平，但两个人都会经历"练道菜越来越熟练、但越来越不会举反三"的阶段，区别只在于有天赋的人这个阶段来得晚些、回落幅度小些。

这个发现有个实用意义：如果你没有条件使用大强的模型，你仍然可以通过理配置训练策略来大化模型的泛化能力，而不把所有赌注压在"用大的模型"这条路上。

七、容量分配的艺术：强化学习需要"轻装上阵"

研究团队还入研究了个细节的技术问题：在模型的可训练参数量上，监督微调和强化学习分别应该分配多少？这涉及到种叫做LoRA的技术——简单来说，这是种让大模型局部新的法，通过控制"调整层的大小"（称为"秩"）来控制模型改变自身的幅度。

研究团队系统地测试了不同的秩组。结论是：监督微调阶段需要较的秩（大的调整空间），而强化学习阶段反而在较低的秩下表现好。具体来说，监督微调用256的秩、强化学习用16的秩，比两个阶段都用64的秩果好。

这个规律直觉上也说得通。监督微调要教会模型理解任务格式、生物学业知识和理模式，需要足够的"容量"来吸收这些多样化的信息。但强化学习的任务是在已有知识基础上微调决策策略，如果给了太大的调整空间，反而容易过拟，把励信号学歪了。小幅的调整，比大幅粗放的调整，能保留模型已经建立起来的生物理能力。

回到厨师比喻：学习菜谱和技术时，你需要大量笔记和笔记本（秩）；但在比赛中临场调整风格时，只需要在脑子里做几个细微的修正（低秩），如果这时候还直在翻阅笔记、大幅改变做法，反而会手忙脚乱。

八、如何在固定预内取得好的熟悉-陌生平衡

后，研究团队还做了个非常实用的实验：把总训练"步数"固定为8步，然后测试不同的监督微调与强化学习步数比例，看哪种分案能带来好的综表现。

结果清楚地显示，优案既不是"全部用监督微调"也不是"全部用强化学习"，而是在中间某个适的比例。具体来看，用1到3步做监督微调、剩余步数全部做强化学习，是陌生任务表现好的配置范围。如果把大部分步数都花在监督微调上，陌生任务表现会显著下滑；如果不做监督微调、直接上强化学习，模型也因缺乏基础而表现不佳。

用个直观的说法：先用少量时间建立任务基础，剩余时间全力练习临场应变，比把大部分时间用来反复练习固定菜谱、只留少量时间临场发挥，要聪明得多。监督微调负责底、建立框架，强化学习负责破圈、拓展边界，两者缺不可，但比例至关重要。

在数据固定、只变步数比例的情况下，DNA任务中，Qwen3-1.7B和Gemma模型都在"2步监督微调+6步强化学习"附近取得了陌生任务的峰值准确率，约78左右，而"8步全部监督微调"时陌生任务准确率约71，"8步全部强化学习"时陌生任务准确率低，约62。这种差距在RNA任务上体现得为明显。

说到底，这项研究核心的贡献不是某个新法或新模型，而是套系统的"训练智慧"。三个训练阶段并不是简单地越多越好——持续预训练是铺底的地基，监督微调是建立任务能力的主体结构，强化学习是帮助模型真正破墙而出、应对真实世界多样的后道工序。关键在于，每个阶段都有其适的比例和参数设置，盲目地加大任何个阶段的投入，都可能以牺牲另维度的能力为代价。

这对生物医学AI域的实际从业者意味着什么？意味着在有限的计资源下，花时间思考"怎么训练"比单纯追求"训练多少"有价值。意味着在发布个生物AI模型时，不能只看它在熟悉数据上的漂亮分数，而须认真评估它在陌生生物系统上的表现。归根结底，个只会在训练数据范围内表现出的生物理模型，在真正面对未知、未知基因、未知物种时，很可能从下手。而那才是生物医学AI真正需要解决的问题。

感兴趣的读者可以在arXiv平台通过论文编号arXiv:2606.16517查阅完整论文，也可以访问研究团队在GitHub上开源的代码库和Hugging Face上的模型检查点，自行复现或扩展这些实验。

Q&A

Q1：生物AI模型训练时，监督微调做多少轮适？

A：研究发现监督微调并非越多越好。在固定数据量下，陌生任务的表现通常在2到4轮时达到峰值，之后随训练轮次增加反而下滑。如果目标是让模型在未见过的生物系统上也能泛化，建议早停监督微调，之后转入强化学习阶段。DNA任务实验中，16轮时熟悉任务准确率达90，但陌生任务已从73的峰值回落至68。

Q2：强化学习为什么能提升生物AI的泛化能力？

A：强化学习通过让模型自己尝试并接受惩反馈来优化策略，而不是模仿固定答案，因此不会像监督微调那样把模型"锁定"在训练数据的分布里。实验显示，在强监督微调检查点基础上进行强化学习，陌生任务表现能获得显著提升，而且大部分收益集中在初几轮，需限增加训练量。

Q3：持续预训练对生物理模型有多大影响？

A：影响相当显著，尤其是对较小的模型。实验中，有持续预训练的Qwen3-1.7B在DNA陌生任务上比预训练版本提升了约0.2个准确率单位。其作用在于提前让模型建立生物学语言感觉，使后续监督微调和强化学习能注于层次的理能力，而不同时处理语言和任务两个维度的学习压力。相关词条:玻璃棉塑料挤出机厂家钢绞线管道保温 PVC管道管件粘结胶

奥力斯泡沫板橡塑板专用胶报价联系人：王经理手机：18232851235（微信同号）地址：河北省任丘市北辛庄乡南代河工业区

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》，以此来变相勒索商家索要赔偿的违法恶意行为。

新疆护角胶厂 哈佛揭开&quot;训练越多越好&quot;的迷思: AI生物理模型的三阶段炼成法则

新疆护角胶厂哈佛揭开"训练越多越好"的迷思: AI生物理模型的三阶段炼成法则