0|基本信息(Metadata)
- 标题(Title,中英文):The past, present and future of de novo protein design / 《从头蛋白质设计的过去、现在与未来》
- 作者(Authors):Wei Yang, Shunzhi Wang, David Baker(华盛顿大学蛋白设计研究所;计算蛋白设计、结构生物学、AI for biology)
- 期刊 / 会议(Venue):Nature(顶级综合期刊,标志性综述)
- 发表时间(Year):2026
1|核心结论(Core Takeaway)
- 深度学习驱动的蛋白设计已发生范式转变:从“随机筛选”转向“可控生成设计”。
- 蛋白结构(fold)、组装(assembly)和结合(binding)问题基本被解决。
- 当前核心问题已转为:“设计什么功能”,而非“如何设计”。
👉 判断:强烈值得读(领域路线图级综述)
2|研究问题与背景(Problem & Context)
- 核心问题:是否可以从零设计具备特定结构与功能的蛋白质?
- 背景动机:
- 自然蛋白进化太慢,无法应对疾病/环境问题
- 蛋白具有极强功能潜力(催化、识别、能量转换)
- 历史挑战:
- 折叠(folding)是否可预测
- 功能位点是否可精确构建
- 领域转折点:
- AlphaFold → 结构预测几乎解决
- RFdiffusion → 结构生成能力爆发
3|方法主线(Approach)
整体方法经历两代范式:
第一代:物理模型(Physics-based)
- 能量函数(force field)驱动
- 三步:
- backbone采样
- sequence设计
- energy ranking
- 代表工具:Rosetta
第二代:深度学习(ML-based)
核心pipeline:
- 结构生成(Structure generation)
- diffusion模型(如 RFdiffusion)
- 序列设计(Sequence design)
- ProteinMPNN 等
- 结构验证(Structure prediction)
- AlphaFold / RoseTTAFold
👉 本质转变:
- 从“最低能量结构” → “最高概率结构”
4|创新贡献(Novel Contribution)
类型
- 方法创新(Methodological)+ 领域整合综述
真正创新点
- 明确提出:蛋白设计问题的“已解 vs 未解”边界
- 系统总结:
- diffusion模型如何统一结构生成问题
- ML如何替代传统能量函数体系
- 提出新研究范式:
“design space exploration” 取代 “optimization”
创新幅度
👉 高(范式总结 + 未来方向定义)
5|关键点(Key Points)
- 蛋白设计核心问题已分层解决:
- 结构(fold)✅
- 组装(assembly)✅
- 结合(binding)≈已解决
- 催化(catalysis)⚠️仍难
- 扩散模型(Diffusion)成为核心生成范式
- 类似 DALL·E,但用于蛋白结构
-
ProteinMPNN 解决 sequence design bottleneck
- binder设计已可达皮摩尔级亲和力
- 可替代抗体
- 酶设计仍受限于:
- 活性位点原子级精度不足
- 高能垒反应难以设计
6|关键数学 / 统计方法(Quantitative Tools)
1. 扩散模型(Diffusion Model)
- 用于:生成蛋白 backbone
- 作用:建模结构分布(而非优化单点)
- 可迁移性:⭐⭐⭐⭐⭐(生成建模通用范式)
2. 概率建模(Probabilistic modeling)
- 替代传统 energy function
- 核心思想:structure probability > energy minimum
- 可迁移性:⭐⭐⭐⭐
3. 图神经网络(GNN-based sequence design)
- 代表:ProteinMPNN
- 用于:structure → sequence 映射
- 可迁移性:⭐⭐⭐⭐⭐
7|结果与证据强度(Results & Evidence Strength)
核心结果
- 已设计并实验验证:
- >200 个蛋白binder
- 多种病毒(SARS-CoV-2、流感)抑制剂
- 纳米材料、蛋白组装结构
- 酶(部分达到 10⁵ M⁻¹ s⁻¹)
证据特点
| 维度 | 评价 |
|---|---|
| 实验验证 | ✔ 大量 wet-lab 验证 |
| 应用落地 | ✔ 已有疫苗(SKYCovione) |
| 方法泛化 | ✔ 多任务适用 |
| 定量性能 | ⚠ 酶催化仍弱 |
👉 证据强度:强
但:
- 酶设计仍依赖筛选/优化
- 高复杂功能系统证据有限
8|局限与注意点(Limitations)
- 催化能力不足
- 高能反应设计仍困难
- 多状态系统(multistate systems)尚不成熟
- 如分子机器、动态调控
-
免疫原性(immunogenicity)风险未完全解决
- 设计空间探索仍依赖经验(what to design)
9|可迁移价值(Transferable Value)
1. “生成优先”设计范式
- 不再优化已有结构
- 而是直接生成满足约束的结构
👉 可用于:
- 分子设计 -材料设计 -电路/结构生成
2. 分解式设计pipeline
- backbone → sequence → validation
👉 强通用架构(可迁移到任意生成任务)
3. 结合 ML + 实验闭环
- 模型输出必须实验验证
- 快速迭代
👉 对任何“科学AI”任务都是关键范式
10|一句话总结(One-line Summary)
深度学习已基本解决蛋白结构与结合设计问题,蛋白工程正式进入“功能设计与系统构建”的新阶段。