0|基本信息(Metadata)

  • 标题(Title,中英文):The past, present and future of de novo protein design / 《从头蛋白质设计的过去、现在与未来》
  • 作者(Authors):Wei Yang, Shunzhi Wang, David Baker(华盛顿大学蛋白设计研究所;计算蛋白设计、结构生物学、AI for biology)
  • 期刊 / 会议(Venue):Nature(顶级综合期刊,标志性综述)
  • 发表时间(Year):2026

1|核心结论(Core Takeaway)

  • 深度学习驱动的蛋白设计已发生范式转变:从“随机筛选”转向“可控生成设计”。
  • 蛋白结构(fold)、组装(assembly)和结合(binding)问题基本被解决。
  • 当前核心问题已转为:“设计什么功能”,而非“如何设计”。

👉 判断:强烈值得读(领域路线图级综述)


2|研究问题与背景(Problem & Context)

  • 核心问题:是否可以从零设计具备特定结构与功能的蛋白质?
  • 背景动机:
    • 自然蛋白进化太慢,无法应对疾病/环境问题
    • 蛋白具有极强功能潜力(催化、识别、能量转换)
  • 历史挑战:
    • 折叠(folding)是否可预测
    • 功能位点是否可精确构建
  • 领域转折点:
    • AlphaFold → 结构预测几乎解决
    • RFdiffusion → 结构生成能力爆发

3|方法主线(Approach)

整体方法经历两代范式:

第一代:物理模型(Physics-based)

  • 能量函数(force field)驱动
  • 三步:
    1. backbone采样
    2. sequence设计
    3. energy ranking
  • 代表工具:Rosetta

第二代:深度学习(ML-based)

核心pipeline:

  1. 结构生成(Structure generation)
    • diffusion模型(如 RFdiffusion)
  2. 序列设计(Sequence design)
    • ProteinMPNN 等
  3. 结构验证(Structure prediction)
    • AlphaFold / RoseTTAFold

👉 本质转变:

  • 从“最低能量结构” → “最高概率结构”

4|创新贡献(Novel Contribution)

类型

  • 方法创新(Methodological)+ 领域整合综述

真正创新点

  • 明确提出:蛋白设计问题的“已解 vs 未解”边界
  • 系统总结:
    • diffusion模型如何统一结构生成问题
    • ML如何替代传统能量函数体系
  • 提出新研究范式:

    “design space exploration” 取代 “optimization”

创新幅度

👉 高(范式总结 + 未来方向定义)


5|关键点(Key Points)

  • 蛋白设计核心问题已分层解决:
    • 结构(fold)✅
    • 组装(assembly)✅
    • 结合(binding)≈已解决
    • 催化(catalysis)⚠️仍难
  • 扩散模型(Diffusion)成为核心生成范式
    • 类似 DALL·E,但用于蛋白结构
  • ProteinMPNN 解决 sequence design bottleneck

  • binder设计已可达皮摩尔级亲和力
    • 可替代抗体
  • 酶设计仍受限于:
    • 活性位点原子级精度不足
    • 高能垒反应难以设计

6|关键数学 / 统计方法(Quantitative Tools)

1. 扩散模型(Diffusion Model)

  • 用于:生成蛋白 backbone
  • 作用:建模结构分布(而非优化单点)
  • 可迁移性:⭐⭐⭐⭐⭐(生成建模通用范式)

2. 概率建模(Probabilistic modeling)

  • 替代传统 energy function
  • 核心思想:structure probability > energy minimum
  • 可迁移性:⭐⭐⭐⭐

3. 图神经网络(GNN-based sequence design)

  • 代表:ProteinMPNN
  • 用于:structure → sequence 映射
  • 可迁移性:⭐⭐⭐⭐⭐

7|结果与证据强度(Results & Evidence Strength)

核心结果

  • 已设计并实验验证:
    • >200 个蛋白binder
    • 多种病毒(SARS-CoV-2、流感)抑制剂
    • 纳米材料、蛋白组装结构
    • 酶(部分达到 10⁵ M⁻¹ s⁻¹)

证据特点

维度 评价
实验验证 ✔ 大量 wet-lab 验证
应用落地 ✔ 已有疫苗(SKYCovione)
方法泛化 ✔ 多任务适用
定量性能 ⚠ 酶催化仍弱

👉 证据强度:强

但:

  • 酶设计仍依赖筛选/优化
  • 高复杂功能系统证据有限

8|局限与注意点(Limitations)

  • 催化能力不足
    • 高能反应设计仍困难
  • 多状态系统(multistate systems)尚不成熟
    • 如分子机器、动态调控
  • 免疫原性(immunogenicity)风险未完全解决

  • 设计空间探索仍依赖经验(what to design)

9|可迁移价值(Transferable Value)

1. “生成优先”设计范式

  • 不再优化已有结构
  • 而是直接生成满足约束的结构

👉 可用于:

  • 分子设计 -材料设计 -电路/结构生成

2. 分解式设计pipeline

  • backbone → sequence → validation

👉 强通用架构(可迁移到任意生成任务)


3. 结合 ML + 实验闭环

  • 模型输出必须实验验证
  • 快速迭代

👉 对任何“科学AI”任务都是关键范式


10|一句话总结(One-line Summary)

深度学习已基本解决蛋白结构与结合设计问题,蛋白工程正式进入“功能设计与系统构建”的新阶段。