
2026 年 4 月 13 日下午,清华主楼后厅。诺贝尔生理学或医学奖委员会秘书长 Thomas Perlmann 站在台上。这是他第一次来清华。

讲座进行到一半,他讲到了一个他常被问到的问题:有什么条件才能得到诺贝尔奖。
"获奖者不需要是知名科学家。委员会看的是 discovery 本身。一份漂亮的 CV 不是必要条件。"
我们被教导要"经营"自己的学术形象,要让 CV 看起来无懈可击。但 Perlmann 告诉我们:在诺奖委员会那里,这些东西全部归零。
我坐在下面,一边听,一边意识到:我们这一代 AI4S 研究者的思路,和诺奖的评奖标准,似乎有些偏离。
讲座本身的内容,网上很快会有各种版本。在这篇文章里,我想做的是:把 Perlmann 带来的评价体系,当作一把尺子,去量一下当下的 AI4S / 蛋白设计领域。
量完之后我的结论是——伟大的工具之所以伟大,是因为它突破了认知,而不是因为它是工具。AI4S 当下的危险,是让"堆砌工具"看起来像"推动认知"。
一、Perlmann 讲了什么:三个反市场信号的命题
Perlmann 的讲座横跨 Nobel 的生平、评审流程、历届获奖者故事。但如果把他讲的东西压缩成几个最核心的命题,我认为有三条。
命题一:评的是 discovery,不是 person。
诺奖的提名是邀请制的——每年委员会向全球数千名特定身份的科学家发出邀请信,自荐无效,被提名人身份保密 50 年。Perlmann 明确说:委员会评审时,看的是这项发现本身的深度和影响,而不是发现者的 CV。一份 impressive 的简历不是必要条件。

他还顺带澄清了另一个迷思:获奖工作不需要发表在高影响因子期刊上。历史上大量获奖工作发在中低影响因子期刊,甚至发在 Letters 和 Correspondence 栏目。一个极端的例子是 Katalin Karikó 关于 mRNA 修饰的关键工作——被 Nature 和 Science 拒稿过,宾大还因为她拿不到经费把她降了职。2023 年她拿了诺贝尔生理学或医学奖。
这套做法连起来看,诺奖委员会刻意构建了一套抗"学术市场信号"的评价体系。他们不看品牌、不看身份、不接受自荐,就是为了把噪音过滤掉,回到一个最原始的问题——这项发现本身,到底有没有改变人类对世界的理解?
命题二:真正的好工作往往 fight dogmas。
Perlmann 在这里讲了 Barry Marshall 和 Robin Warren 的故事。
1980 年代之前,全世界医学界相信胃溃疡是压力和胃酸过多导致的——因为胃酸环境里"不可能"有细菌存活。Marshall 和 Warren 这两个澳大利亚人发现胃黏膜里有一种弯曲的细菌(后来命名为 Helicobacter pylori),提出胃溃疡是细菌感染。学界反应是集体嘲笑。论文被拒,申请被拒,在会议上被当成笑话。Marshall 走投无路,1984 年自己喝下了一杯含 H. pylori 的培养液,几天后真的得了急性胃炎,再用抗生素治好。
他们最初发表那个关键观察的地方,是 The Lancet 的 Correspondence 栏目——一封读者来信。2005 年,他们获得诺贝尔生理学或医学奖。

Perlmann 用这个故事想说的事情其实很锋利:配得上诺奖的发现,往往在提出时是"错的"——错在它违反了当时所有人相信的东西。如果你的研究只是在已有 paradigm 内做精致化,再漂亮也很难达到这个量级。
命题三:physiology 和 medicine 是一个连续体。
Nobel 在遗嘱里用的词组是 "Physiology or Medicine"——不是 "and",也不是 "Biology"。Perlmann 解释说,Nobel 意识到基础的生物学理解是医学进步的前提。所以这个奖同时向两类工作开放:揭示机制的基础研究(physiology),和直接改变临床的应用突破(medicine)。
这一点对 AI4S 研究者尤其重要——我们在做的大部分工作都在 physiology 这一端。我会在后面回到这一点。
二、2024 化学奖:委员会如何判断"工具"
把 Perlmann 的评审哲学立起来之后,我们要问一个自然的问题——这套哲学在 AI 时代还成立吗?
这个问题不能空谈,有一个具体的案例可以分析:2024 年诺贝尔化学奖。
这一届化学奖的奖金分配方式,其实很少被仔细讨论。完整构成是这样的:
一半给 David Baker(University of Washington),表彰 "computational protein design"
另一半由 Demis Hassabis 和 John Jumper(Google DeepMind)共享,表彰 "protein structure prediction"

很多人把这届奖简单概括成"AI for biology 拿了诺奖"。但委员会的实际判断比这微妙得多。
奖金分配的方式告诉我们:委员会同时奖励了两件不同性质的事。AlphaFold 解决的是预测问题——给定序列,结构是什么?Baker 的工作开启的是反向问题——我想要什么功能,能否凭空设计出一个蛋白?这两件事合在一起,意味着蛋白质科学从此不再只是一门"观察和改造"的学科,而是变成了一门"可预测、可设计"的学科。
这是生物学史上的一次真正的 paradigm shift。
更值得注意的是:Baker 获奖的工作,并不依赖 2020 年之后的任何深度学习大模型。他获奖的根基是他几十年在 Rosetta 体系和 de novo design 上的奠基性贡献。RFdiffusion 这样的深度学习工具,是在他已经值得获奖之后才锦上添花的。这个细节很关键——它说明真正的 discovery 可以在深度学习之前就完成,AI 只是放大了它。
把这届化学奖放在 Perlmann 的评审框架里看,我们可以清楚地看出委员会的判断逻辑:
他们奖励的不是工具本身,而是工具背后的认知突破。
AlphaFold 突破了一个长达半个世纪的 dogma——"蛋白质折叠问题不可解,序列到结构的映射不可学"。Baker 突破了另一个 dogma——"功能性蛋白只能来自演化和改造,不能凭空设计"。这两项工作之所以获奖,不是因为它们是 AI,不是因为它们是高精度工具,而是因为它们各自打破了一个固有认知。


如果这两项工作只是工程上的改进——更快的结构预测、更复杂的分子模拟、更高的 benchmark 分数——它们不会获奖。它们获奖,是因为它们改变了我们对"蛋白质是什么、能做什么"的基本理解。
这给了我一把清晰的尺子。接下来我想用这把尺子,去量一下当下整个 AI4S 领域。
三、用这把尺子量 AI4S 领域
尺子只有一句话:这项工作突破了哪个固有认知?如果答不上来,它就只是 improvement。
我把 AI4S 领域的工作粗略分成四类来量。
第一类:已经被认可为 discovery 级别的工作
AlphaFold2 和 Baker 的 de novo design 是典型代表。再往前,2017 年化学奖的 Cryo-EM("resolution revolution")也是同一种——它突破了"高分辨率结构必须靠晶体"的认知,让原本无法研究的大分子复合物变得可见。
这些工作的共性非常清楚:它们让一个领域的某个根本限制被打破了。在它们出现之前,整个领域相信某件事"做不到";在它们出现之后,那件事成了基础设施。
第二类:有潜力成为 discovery,但尚未完成证明
这是 AI4S 当下最有意思的一层。有几个方向我觉得值得持续观察:
Generative de novo design 的下一步:如果未来 10 年能证明"完全人工设计的蛋白/多肽能够成为主流治疗剂",这将突破"功能分子只能来自演化或已知药物化学空间"的认知。这是 Baker 路线的自然延续,但证明尚未完成。
Single-cell / spatial omics foundation models:如果能从数据中涌现出新的细胞状态分类、新的发育轨迹、新的疾病机制,它将突破"细胞类型必须依赖人工标注"的认知。这类工作现在还主要停留在 benchmark 阶段,真正的生物学发现还没出来。
Closed-loop active learning with wet lab:如果能建立起"计算预测 + 自动化实验 + 反馈优化"的闭环,它将突破"干湿实验必须分离"的认知。这比单纯的计算突破可能更深,因为它重构的是整个 workflow。
这些方向现在都在"有潜力"阶段——有希望成为下一个 AlphaFold,也有可能最终被证明只是精致的工程。
第三类:看起来热闹,但尺子量下去站不住的工作
这一层的工作在 AI4S 领域数量最多。我不点名具体论文,只描述类型:
"又一个 benchmark SOTA"类工作——它突破了什么认知?往往只突破了排行榜的第一名。
"把 X 模型应用到 Y 数据集"类工作——除非 Y 数据集本身指向一个新的生物学问题,否则它是 applied science,不是 basic science。
"更大的 protein language model"类工作——参数量本身不是认知。除非更大的模型揭示了某种真正新的规律(比如 emergent capabilities 带来了新的生物学 insight),否则它是工程成就。
"更完整的 pipeline"类工作——更快、更自动化、更好集成,这些都是工程上的进步,但工程上的进步不等于科学上的突破。
这些工作不是没有价值。它们是扎实的 applied science,能产出好 paper、能训练人才、能推动具体的药物开发项目。我自己做的大部分事情也在这一类里。但我们必须诚实地承认——它们不是 Perlmann 意义上的 discovery。它们是在已有 paradigm 内做精致化,而不是挑战 paradigm 本身。
把这层工作误认为是"突破",是 AI4S 领域当下最普遍的认知偏差。
第四类:可能被低估的方向
与喧嚣的 SOTA 竞赛相对,有一些方向更安静,但在"认知突破"这把尺子下可能更 promising:
Protein dynamics 和 conformational ensembles 的预测与设计——AlphaFold2 是静态的,但蛋白质的功能常常依赖于动态。谁先解决动态,谁就在 AlphaFold 之后开启下一个认知边界。
Interpretability of protein / biology foundation models——如果能从这些大模型里反向提炼出人类可理解的新生物学规则,这本身就是一种 discovery。当前这个方向被严重低估,因为它"不够酷"、benchmark 不漂亮。
物理先验与深度学习的深度融合——不是把物理当作后处理的打分器,而是让物理成为模型架构的一部分。这可能突破"纯数据驱动 vs 纯物理驱动"的二分 dogma。
这些方向的共同点是:它们回答的是真正的生物学问题或物理问题,而不是工程问题。
四、对同代 AI4S 研究者的诚实建议
量完之后,几个可操作的反思留给我们自己。
三个可以反复问自己的问题:
1. 如果 AlphaFold / ESM / RFdiffusion 等工具 明天消失,我的课题还成立吗? 如果不成立,说明我的课题是工具的下游,不是科学的上游。
2. 我回答的是工程问题还是生物学问题? "我的 pipeline 更快了"是工程问题。"自然为什么选择了这种折叠方式"是生物学问题。两者都有价值,但只有后者可能是 discovery。
3. 我的工作突破了哪个具体的固有认知? 如果五秒钟内答不上来,它就只是 improvement。这是一把冷峻但有效的尺子。
AI4S 领域几个值得被挑战的 dogma:
我自己心里有一份"我怀疑但说不清为什么"的清单,列出几个供参考:
"Bigger model is always better"——蛋白/分子领域真的需要 100B 参数模型吗?还是几亿参数 + 强 inductive bias 已经够?
"End-to-end is better than modular"——很多 pipeline 强行 e2e,但分模块的混合系统可能更可控、更 interpretable、更易于科学解读。
"Sequence is enough, structure is derivative"——结构生物学家应该知道,结构里有序列学不到的东西。完全依赖序列的路线可能是一个局部最优。
每一条都不是定论。但心里有一份这样的清单,会让你读 paper 的视角完全不同——你不再是在"follow 领域的 consensus",而是在"寻找 consensus 的漏洞"。
关于博士阶段的现实平衡:
最后一点必须诚实说。
作为一个 AI4S 的博士生,我必须承认:我们这一代人的日常工作,绝大部分都在 applied 这一端。这不是谁的错,这是一个年轻领域在积累工具、方法论、基础设施的必然阶段。博士阶段 70% applied + 30% basic,可能是一个健康的配比。
但问题在于——大多数博士生的实际配比是 95% applied + 5% basic,而且那 5% 经常被更紧迫的 paper deadline 挤压掉。Perlmann 讲座提醒我们的,正是那 30% 的不可压缩性。它决定的不是你能不能毕业,而是十年后你会成为什么样的科学家。
五、回到 Alfred Nobel
1895 年,Alfred Nobel 在巴黎独自写下那份一页纸的遗嘱。没有律师起草,字迹潦草。他把 94% 的财产捐出,设立一个奖励"为人类做出最大贡献的人"的基金。他特意注明,评奖不应考虑国籍。

Nobel 这个人本身是充满矛盾的——靠发明炸药致富,被报纸称作"死亡商人",却在生命末年做出了人类历史上规模最大的一次科学慈善。他不是在设计一个学术评价体系,他是在做一次道德选择——把最大的荣誉,留给那些真正为人类做出贡献的人。

一百三十年后,当 AI 正在重塑整个生命科学,我们这代研究者站在一个同样需要做选择的时刻:是去追逐下一个 benchmark,还是去回答一个真正的问题?
Perlmann 今天的讲座没有给出答案。但他把问题变得清晰了:
伟大的工具之所以伟大,是因为它突破了认知。我们这代 AI4S 研究者,是在突破认知,还是在堆砌工具?
这个问题,我留给所有读到这里的同行——和未来的自己。
作者:BlueArctic
来源:蓝极随笔