
这项由哈佛大学联谷歌DeepMind与谷歌研究院共同完成的研究,以预印本形式于2026年6月15日发布在arXiv平台,论文编号为arXiv:2606.16517。研究涵盖了过100个生物理模型的系统训练与评估实验,是目前针对生物域AI后训练阶段为系统入的对照研究之。
生物医学AI是当下热门的研究前沿之。我们已经看到各种AI系统声称能够预测蛋白质结构、识别致病基因、帮助寻找药物靶点。然而,这些系统背后有个几乎从未被认真追问的问题:把模型训练得越久、喂给它越多数据,它真的会变得越来越聪明吗?
现实情况远比这复杂。哈佛大学的研究团队花了大量时间,系统地训练和测试了过100个生物理模型,用覆盖DNA、RNA和蛋白质三种生物分子类型的任务,严格验证了每个训练阶段究竟对模型能力产生了什么影响。他们的结论颠覆了很多人的直觉:多的训练,不定带来好的泛化能力;关键在于训练的式,以及不同训练阶段如何搭配组。
要理解这项研究,可以用烹饪作为贯穿始终的类比。训练个能真正"理解生物学"的AI,就像培养位有真才实学的大厨,而不只是个能背菜谱的机器人。研究团队想搞清楚的是:学厨的三个阶段——基础烹饪理论课、反复练习固定菜谱、以及在不同餐厅临场发挥——各自对大厨终的本事有什么影响?练得越多,在陌生厨房里就越厉害吗?答案并不那么简单。
、为什么生物学是测试AI泛化能力的"难考场"
在数学和编程域,当你训练AI解数学题,大多数"陌生题目"其实跟训练题有相似的结构,只是换了数字或变量名。但生物学不样。在生物世界里,条没见过的代谢通路、种未曾研究过的、个来自不同物种的蛋白质,可能涉及的是不同的生化机制和分子互动逻辑。就好比你在中餐厅学会了炒菜,未就知道怎么做法式酱汁——两者的底层逻辑差异可能远表面看起来的样子。
这意味着,个在训练集上表现的生物AI模型,换到它没见过的生物系统时,很可能直接"翻车"。而且棘手的是,你在熟悉的题目上练习越多,模型可能越来越擅长"认菜谱",而不是真正学会"做菜的道理"。这种现象研究团队称之为"过度化"——模型越来越适应训练数据的分布,却离真实生物世界的复杂多样越来越远。
研究团队为三类任务分别设计了严格的"熟悉"(域内)和"陌生"(域外)测试。域内测试就像考你在训练餐厅里做过的菜,域外测试则是把你扔到个陌生的厨房,让你用没见过的食材做没做过的料理。这种区分让他们能够精确捕捉到:每轮额外训练,究竟是让AI真的聪明了,还是只是擅长考试了。
二、三位"训练教练"各司其职,却并非缺不可
研究团队把训练分成三个依次进行的阶段,分别对应不同的目标和。
个阶段叫做"持续预训练"(CPT)。在这阶段,模型并不去做具体的生物学任务,而是大量阅读各类生物学文本——论文摘要、科普文章、业文献等等。这就像大厨入行前先花时间广泛阅读食谱书、了解食材知识、建立对烹饪世界的基础认知,而不是上来就开火炒菜。这个阶段培养的是"生物语言感觉",让模型理解蛋白质、基因、通路这些词汇的上下文含义。
二个阶段叫做"监督微调"(SFT)。这是直接的"题海战术"训练:给模型看大量标准的问答样本,让它学着模仿正确答案的形式和内容。比如"这个基因突变会引发什么",然后给出标准答案,让模型反复学习。这就像让大厨反复练习同批经典菜肴,直到动作娴熟、出品稳定。
三个阶段叫做"强化学习"(RL)。这个阶段不再给模型看标准答案,而是让它自己尝试给出答案,然后根据答案的好坏给予惩反馈,驱动模型不断改进。这就像让大厨在真实的评分比赛中历练,通过客人的即时反应来磨练真正的临场判断力,而不是背书本答案。
三个阶段听起来顺理成章,但研究团队真正想弄清楚的是:这三个阶段是不是简单地"叠加"就能带来好的果?每增加个阶段,模型是否都在变得好?
三、监督微调是把双刃剑:学得越多,却越"固执"
研究团队进行了系列精心设计的实验,每次只改变个变量,保持其他条件不变。关于监督微调阶段的发现是整项研究中出人意料的部分之。
在固定训练数据量、只增加训练轮次的情况下,研究团队发现了个清晰的规律:随着训练轮次的增加,模型在熟悉题目上的表现持续提升,但在陌生题目上的表现却在某个节点之后开始下滑。以DNA通路预测任务为例,个模型在训练了1轮之后,熟悉题目的准确率约为68,陌生题目约为68,两者旗鼓相当。但随着训练增加到16轮,熟悉题目的准确率爬升到了90,而陌生题目的准确率在2到4轮时达到了约73的峰值,此后便开始回落,终跌回到68左右。
用烹饪来解释这个现象非常直观。个大厨如果在同餐厅里反复练习同批菜,练到后来他确实越来越擅长做这几道菜,但他对这餐厅的食材、火候、摆盘习惯产生了度依赖。把他换到别的厨房,他可能反而比刚入行时不适应——因为他已经把"这餐厅的做法"当成了"做菜的真理"。这种现象在生物学AI里尤其危险,因为真正有价值的是模型能否在陌生的生物系统里保持理能力。
这个发现在RNA药物靶点识别和蛋白质预测任务中同样出现,甚至表现得为明显。RNA实验中,模型陌生任务的准确率从峰值到训练结束时下降了约18个百分点,且下降过程几乎是单调连续的,而不是在某个点达到平台后维持稳定。
研究团队还做了另组实验:保持训练轮次固定为1轮新疆护角胶厂,但逐步增加训练数据量。结果发现,这种式比增加训练轮次要"温和"得多。随着数据量从4000个样本增加到20000个,模型在陌生题目上的表现基本呈现稳定上升或平台趋势,而不会出现先升后降的崩塌现象。这说明,同样多的训练力,花在"看多不同例子"上,比花在"反复看同样的例子"上,对泛化能力的伤害要小得多。
研究团队将这个核心发现归纳为:监督微调能快速提升模型在训练分布上的表现,但随着训练度增加,模型会逐渐收缩到训练数据的分布范围内,失去面对生物多样时的灵活。
四、强化学习是解药,但需要在正确的时机服用
既然监督微调会造成"过度化",强化学习能不能修复这个问题?研究团队的答案是肯定的——但有条件。
研究团队从每个任务中挑选出监督微调的佳检查点(也就是陌生任务表现好时的模型状态),然后在此基础上继续进行强化学习训练,观察结果如何变化。实验结果相当令人鼓舞:在DNA、RNA和蛋白质三种任务上,强化学习几乎都同时提升了熟悉任务和陌生任务的表现,而且陌生任务的提升幅度往往大。
以蛋白质预测任务为例,从1轮强化学习到佳检查点,陌生任务的评分(F值,用于衡量预测质量)提升了约0.08个对值,这在生物信息学域是相当可观的进步。重要的是,强化学习带来的并没有以牺牲熟悉任务表现为代价——两个向都在变好,只是陌生向的进步显著。
还有个规律值得注意:强化学习的收益集中在初几轮。也就是说,1轮的提升明显,之后每增加轮,额外收益就越来越小。这就像个大厨在真实比赛中的前几场历练获益大,之后提升逐渐趋缓。这个规律给出了个实用的操作建议:强化学习不需要限增加,在适的时机停止反而是明智之举。
然而,研究团队也发现,强化学习的果度依赖于出发点的质量。如果监督微调阶段做得太差,直接进入强化学习,模型可能法从反馈信号中有学习。好比个连基本刀工都没学会的厨师去参加评分比赛,没有任何基础的话,客人的评分对他来说也是噪音,不知道怎么改进。强化学习需要个"够好的监督微调起点",万能胶厂家才能发挥出真正的威力。
五、被低估的准备工作:持续预训练是隐形的地基
在三个训练阶段中,持续预训练往往是容易被忽视的环,因为它不直接解决任何具体任务,看起来像是"绕路"。但研究团队的实验数据清楚地表明,这个"绕路"阶段对后续切训练的质量都有远影响。
在DNA和RNA实验中,研究团队分别比较了"有持续预训练"和"没有持续预训练"两条路线下的终模型表现。结论是:持续预训练在几乎每个后续训练阶段都带来了可见的提升,但这个提升的幅度因阶段不同而差异巨大。在监督微调阶段,相对有限;但在强化学习阶段,尤其是在陌生任务上,持续预训练的加持带来了显著大的收益。
对于规模较小的模型(如参数量为17亿的版本),这个果尤为明显。在DNA任务的陌生测试中,有持续预训练的模型比没有预训练的版本整体提升了约0.2个准确率单位——这不是小数字。研究团队的解释是:没有经过生物学语言熏陶的通用语言模型,在面对监督微调和强化学习时,需要同时学习三件事:生物学语言规范、任务的格式要求、以及真正的理逻辑。把三件事同时塞给模型,每件事都学得不够透彻。持续预训练先把"生物学语言感觉"建立起来,让后续训练可以注于层次的理能力培养。
这个发现特别适用于计资源有限的研究团队:与其把全部预花在反复监督微调上,不如先拨出部分力做持续预训练,为后续的强化学习好地基,终的陌生任务表现往往好。
六、大的模型只是把上限抬,并不改变游戏规则
个自然的疑问是:如果换用强大的基础模型,上述这些规律是否还成立?研究团队在RNA任务上门针对这个问题做了实验,额外引入了谷歌DeepMind的Gemma 4 E2B模型作为对照,与两个Qwen3系列模型(1.7亿和4亿参数)起比较。
结果颇具说服力。不同底层模型的对表现存在差异——强的基础模型确实能达到的能上限。但训练动态的基本形态保持致:监督微调仍然致熟悉任务提升、陌生任务先升后降的模式,强化学习仍然有地陌生任务表现。Gemma模型在某些情况下的强化学习阶段表现得为平稳,不像较小的Qwen模型那样在开始强化学习时会出现短暂的能回落,但这只是幅度和流畅度上的差异,而非本质规律的改变。
用烹饪来类比:把个普通人和个天赋异禀的厨艺学徒放在同样的培训流程里,天赋好的那个终水平,但两个人都会经历"练道菜越来越熟练、但越来越不会举反三"的阶段,区别只在于有天赋的人这个阶段来得晚些、回落幅度小些。
这个发现有个实用意义:如果你没有条件使用大强的模型,你仍然可以通过理配置训练策略来大化模型的泛化能力,而不把所有赌注压在"用大的模型"这条路上。
七、容量分配的艺术:强化学习需要"轻装上阵"
研究团队还入研究了个细节的技术问题:在模型的可训练参数量上,监督微调和强化学习分别应该分配多少?这涉及到种叫做LoRA的技术——简单来说,这是种让大模型局部新的法,通过控制"调整层的大小"(称为"秩")来控制模型改变自身的幅度。
研究团队系统地测试了不同的秩组。结论是:监督微调阶段需要较的秩(大的调整空间),而强化学习阶段反而在较低的秩下表现好。具体来说,监督微调用256的秩、强化学习用16的秩,比两个阶段都用64的秩果好。
这个规律直觉上也说得通。监督微调要教会模型理解任务格式、生物学业知识和理模式,需要足够的"容量"来吸收这些多样化的信息。但强化学习的任务是在已有知识基础上微调决策策略,如果给了太大的调整空间,反而容易过拟,把励信号学歪了。小幅的调整,比大幅粗放的调整,能保留模型已经建立起来的生物理能力。
回到厨师比喻:学习菜谱和技术时,你需要大量笔记和笔记本(秩);但在比赛中临场调整风格时,只需要在脑子里做几个细微的修正(低秩),如果这时候还直在翻阅笔记、大幅改变做法,反而会手忙脚乱。
八、如何在固定预内取得好的熟悉-陌生平衡
后,研究团队还做了个非常实用的实验:把总训练"步数"固定为8步,然后测试不同的监督微调与强化学习步数比例,看哪种分案能带来好的综表现。
结果清楚地显示,优案既不是"全部用监督微调"也不是"全部用强化学习",而是在中间某个适的比例。具体来看,用1到3步做监督微调、剩余步数全部做强化学习,是陌生任务表现好的配置范围。如果把大部分步数都花在监督微调上,陌生任务表现会显著下滑;如果不做监督微调、直接上强化学习,模型也因缺乏基础而表现不佳。
用个直观的说法:先用少量时间建立任务基础,剩余时间全力练习临场应变,比把大部分时间用来反复练习固定菜谱、只留少量时间临场发挥,要聪明得多。监督微调负责底、建立框架,强化学习负责破圈、拓展边界,两者缺不可,但比例至关重要。
在数据固定、只变步数比例的情况下,DNA任务中,Qwen3-1.7B和Gemma模型都在"2步监督微调+6步强化学习"附近取得了陌生任务的峰值准确率,约78左右,而"8步全部监督微调"时陌生任务准确率约71,"8步全部强化学习"时陌生任务准确率低,约62。这种差距在RNA任务上体现得为明显。
说到底,这项研究核心的贡献不是某个新法或新模型,而是套系统的"训练智慧"。三个训练阶段并不是简单地越多越好——持续预训练是铺底的地基,监督微调是建立任务能力的主体结构,强化学习是帮助模型真正破墙而出、应对真实世界多样的后道工序。关键在于,每个阶段都有其适的比例和参数设置,盲目地加大任何个阶段的投入,都可能以牺牲另维度的能力为代价。
这对生物医学AI域的实际从业者意味着什么?意味着在有限的计资源下,花时间思考"怎么训练"比单纯追求"训练多少"有价值。意味着在发布个生物AI模型时,不能只看它在熟悉数据上的漂亮分数,而须认真评估它在陌生生物系统上的表现。归根结底,个只会在训练数据范围内表现出的生物理模型,在真正面对未知、未知基因、未知物种时,很可能从下手。而那才是生物医学AI真正需要解决的问题。
感兴趣的读者可以在arXiv平台通过论文编号arXiv:2606.16517查阅完整论文,也可以访问研究团队在GitHub上开源的代码库和Hugging Face上的模型检查点,自行复现或扩展这些实验。
Q&A
Q1:生物AI模型训练时,监督微调做多少轮适?
A:研究发现监督微调并非越多越好。在固定数据量下,陌生任务的表现通常在2到4轮时达到峰值,之后随训练轮次增加反而下滑。如果目标是让模型在未见过的生物系统上也能泛化,建议早停监督微调,之后转入强化学习阶段。DNA任务实验中,16轮时熟悉任务准确率达90,但陌生任务已从73的峰值回落至68。
Q2:强化学习为什么能提升生物AI的泛化能力?
A:强化学习通过让模型自己尝试并接受惩反馈来优化策略,而不是模仿固定答案,因此不会像监督微调那样把模型"锁定"在训练数据的分布里。实验显示,在强监督微调检查点基础上进行强化学习,陌生任务表现能获得显著提升,而且大部分收益集中在初几轮,需限增加训练量。
Q3:持续预训练对生物理模型有多大影响?
A:影响相当显著,尤其是对较小的模型。实验中,有持续预训练的Qwen3-1.7B在DNA陌生任务上比预训练版本提升了约0.2个准确率单位。其作用在于提前让模型建立生物学语言感觉,使后续监督微调和强化学习能注于层次的理能力,而不同时处理语言和任务两个维度的学习压力。相关词条:玻璃棉 塑料挤出机厂家 钢绞线 管道保温 PVC管道管件粘结胶
奥力斯 泡沫板橡塑板专用胶报价 联系人:王经理 手机:18232851235(微信同号) 地址:河北省任丘市北辛庄乡南代河工业区
1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。