Reti-Pioneer：基于视网膜影像与基础模型的多任务内分泌代谢疾病筛查框架

0｜基本信息（Metadata）

标题（Title，中英文）：A multitask artificial intelligence framework for screening endocrine and metabolic diseases using retinal photographs and pre-trained models / 《基于视网膜影像与预训练模型的多任务人工智能框架用于内分泌代谢疾病筛查》
作者（Authors）：Xiayin Zhang（广东省人民医院）、Qinyi Li、Yinhao Liang、Chunran Lai 为共同第一作者；通讯作者 Zhuoting Zhu（墨尔本大学）、Ching-Yu Cheng（新加坡国立大学/Duke-NUS）、Wing W. Y. Ng、Honghua Yu（汕头大学）。团队横跨中国、新加坡、澳大利亚、中国香港、英国共 20 家机构。
期刊 / 会议（Venue）：Nature Medicine（Nature 系列旗舰医学子刊，临床转化研究顶级阵地，影响因子 >80）
发表时间（Year）：2026 年（Received: 2025-07-29; Accepted: 2026-03-20）

作者团队来自眼科、AI、流行病学、蛋白质组学等多学科背景，依托 UK Biobank、中国三甲医院、新加坡 SEED 队列等国际多中心数据。

1｜核心结论（Core Takeaway）

Reti-Pioneer 提出了一个基于眼底彩照（CFP）与冻结预训练基础模型的多任务 AI 框架，可一站式筛查 2 型糖尿病（T2DM）、高血压、高脂血症、痛风、骨质疏松、甲状腺疾病共六种内分泌代谢疾病。其关键创新——质量感知模块（quality-aware module）——使模型能够主动利用低质量图像（如白内障遮挡图像）中的系统性信号，而非直接丢弃，从而显著提升在基层和资源受限场景中的鲁棒性。

该框架在中、英、新加坡多国、多族裔的外部验证中展示了跨人群泛化能力，并在前瞻性沉默试验（n=1,017）中实现了 98.7% 采图成功率、100% AI 推理成功率、报告生成时间中位数仅 30.6 秒，远快于传统实验室检测和 FINDRISC 问卷。该工作为低成本、高通量的慢病视网膜筛查提供了从模型到临床部署的完整证据链。

2｜研究问题与背景（Problem & Context）

核心问题：内分泌代谢疾病全球高发且持续增长，现有筛查严重依赖血液生化指标，成本高、侵入性强、难以高频纵向监测。视网膜成像（眼底彩照）作为无创、低成本的替代手段，在眼组学（oculomics）领域已显示出预测心血管、肾脏、神经退行性疾病的潜力，但此前研究存在三大瓶颈：依赖高质量成像、局限于单一疾病框架、模型从头训练计算成本高。
科学动机：近期医学基础模型（foundation models）显著降低了数据依赖与计算资源需求，但将其应用于内分泌代谢多病种筛查仍然几近空白，尤其缺乏多族裔人群的充分验证。
领域位置：该工作处于 AI+眼科影像+慢病管理 交叉地带，直接回应了从”单病种 AI”到”多任务一体式筛查”的范式迁移需求，其争议焦点在于视网膜信号是否足以作为系统性代谢疾病的可靠替代生物标志物。

3｜方法主线（Approach）

Reti-Pioneer 的整体策略是：冻结预训练 + 轻量微调 + 质量感知 + 多模态融合 + 多病种统一输出。

数据构建：107,730 张眼底彩照（来自 53,865 名参与者），混合 UK Biobank（社区队列，Topcon 相机，未散瞳）与中国三甲医院（多相机、散瞳），构建涵盖高/低图像质量的异质性训练集。
模型架构：
- 三条冻结预训练骨干：Swin Transformer（层次化视觉表征）、Vision Mamba（状态空间序列建模）、RETFound（眼科领域自监督基础模型）。
- 质量感知模块：接受图像质量分类评分（好/可用/差），通过双线性操作与深度特征融合，经 SELU 激活后保留特征维度，使模型从低质量图像中仍可提取内分泌相关信号。
- 左右眼 + 三骨干共六个预测头，经加权软投票集成（weighted soft voting ensemble）输出个体级统一风险评分。
- 多模态融合：临床元数据（年龄、性别、族裔、体重）与图像深度特征经双线性模块融合。
验证体系：
- 内部测试 + 跨场景外部验证（西藏/新疆/广西资源受限区、广东体检中心与三甲医院、新加坡多族裔 SEED 队列）。
- 纵向预测：UKB 前瞻性子集（n=15,704）评估 5 年和 10 年新发疾病风险。
- 生物学可解释性：2,920 血浆蛋白组学 + 多基因风险评分（PRS）+ 积分梯度（integrated gradient）显著性热力图。
- 临床部署验证：前瞻性盲法沉默试验（n=1,017）+ 开放标签试点研究（n=606）+ 人机协同读片研究。

4｜创新贡献（Novel Contribution）

维度	判断
创新类型	方法创新（Methodological）+ 应用创新（Applied）
创新幅度	中

真正的新意：将”低质量图像应被丢弃”的默认假设反转——质量感知模块使低质量图像成为信号来源而非噪声。这在基层医疗场景中具有高度实用价值，因为眼底彩照在非眼科专业人员操作下图像质量天然波动。
相比以往 oculomics 研究仅关注单病种和高质量图像，Reti-Pioneer 首次在统一冻结基础模型框架下同时输出六种疾病的筛查与纵向风险预测，并通过多国外部验证初步证明了跨族裔泛化性。
上限在于：核心骨干均为已有公开预训练模型（Swin Transformer / Vision Mamba / RETFound），训练策略（冻结骨干 + 微调预测头）属于成熟范式；集成方式（加权软投票）亦为标准做法。创新主要在系统整合与临床适配设计层面。

5｜关键点（Key Points）

质量感知是核心设计理念：消融实验证实，质量感知模块相较仅用高质量图像（T2DM: P=0.011）或不带模块的全量图像（P=0.021）显著提升 AUROC；在试点研究中，骨质疏松对比两种消融变体均 P<0.001。
冻结基础模型 + 轻量预测头的范式使计算成本远低于从头训练，训练仅需单张 RTX 3080（10 GB VRAM），为基层部署扫除了算力门槛。
纵向预测能力已被初步证实：10 年新发疾病 AUROC 为 T2DM 0.736、高血压 0.719、高脂血症 0.735、痛风 0.753、骨质疏松 0.813、甲状腺疾病 0.662——表明视网膜信号中蕴含疾病发生前的系统性改变信息。
视网膜特征可桥接血浆蛋白组学：OPLS-DA 衍生的预测成分与 SCARA5（T2DM）、PLA2G7/PTPRF/APOM（高脂血症）等疾病特异性蛋白显著相关（FDR 校正后），为视网膜作为代谢窗口提供了分子层面的生物学合理性。
人机协同可提升基层诊断能力：读片研究中 AI 辅助使 T2DM 诊断准确率从 71% 提升至 88%，痛风从 51% 提升至 79%，且 AI 助手准确率超过任何单一位专科医生的独立诊断水平。

6｜关键数学 / 统计方法（Quantitative Tools）

方法	文中作用	可迁移性
正交投影潜在结构判别分析（OPLS-DA）	从 256 维视网膜潜在嵌入中提取预测性成分，用于评估视网膜特征与疾病状态及蛋白表达的关联	高——适合高维潜在特征的可解释降维与组间分离，在生物标志物发现中通用性强
弹性网络回归（Elastic Net）	在 2,920 个血浆蛋白中识别每种疾病的前 5 个特异性蛋白特征	高——处理 p»n 的组学数据时的标准工具，L1+L2 混合正则化兼顾稀疏性与共线性
积分梯度（Integrated Gradient）	生成像素级显著性热力图，定位模型决策的关键视网膜区域	中——深度学习可解释性的常用方法，该文展示了其在非传统诊断任务（筛查而非病变检测）中的应用范式
加权软投票集成（Weighted Soft Voting）	融合三条骨干网络与双眼预测结果至个体级统一评分	低~中——标准集成方法，亮点在于跨骨干（CNN/Transformer/SSM 三类架构）的异质性集成设计

7｜结果与证据强度（Results & Evidence Strength）

主要结果速览

场景	T2DM AUROC	高血压 AUROC	高脂血症 AUROC	痛风 AUROC	骨质疏松 AUROC	甲状腺疾病 AUROC
内部测试	0.833	0.740	0.736	0.832	0.787	0.699
资源受限外部验证	0.821	0.805	0.628	0.731	0.904	0.821
SEED 多族裔	0.686	0.749	0.615	—	—	—
试点研究（n=606）	0.776	0.843	0.699	0.804	0.877	0.646

证据强度判断：中偏强

支持性证据：

✅ 训练与验证样本总量大（>13 万张图像，>6.5 万名参与者），统计效力充足。
✅ 外部验证覆盖地理与族裔多样性（中国 4 地 + 新加坡 3 族裔），非单一数据源自证。
✅ 消融实验设计完整：质量感知模块、多模态输入、冻结 vs 微调均有对照。
✅ 前瞻性临床试验为真实世界部署提供关键证据（盲法沉默试验 + 开放标签试点 + 读片研究），且对 FINDRISC 的对比中 AUROC 显著更优（0.776 vs 0.565, P<0.001）。
✅ 生物学可解释性分析（血浆蛋白组学 n=2,920 蛋白）提供了超越黑箱的机制线索。

需注意的薄弱点：

⚠️ SEED 多族裔队列中 T2DM AUROC 降至 0.686、高脂血症仅 0.615，跨族裔泛化仍有明显衰减。
⚠️ 甲状腺疾病在所有场景中 AUROC 均偏低（0.636–0.699），提示视网膜信号对该疾病的信息量有限。
⚠️ 纵向预测是固定时间窗口的二分类任务而非生存分析（time-to-event），可能低估或高估真实风险时程。
⚠️ 试点研究中 AI 辅助的增量来自专科医生的读片准确率提升，但基线诊断标准依赖自报+ICD 编码+生化指标的组合，存在标签噪声。

8｜局限与注意点（Limitations）

跨族裔泛化不足：SEED 队列（新加坡华人、马来人、印度人）中各疾病 AUROC 普遍低于中国内部验证集，T2DM 下降约 0.15。训练数据中亚洲人群占比偏低（UKB 仅 3.6% 亚裔），数据集代表性与平衡性仍是瓶颈。
纵向分析设计局限：仅做 5 年/10 年两个固定时间点的二分类预测，未采用生存分析框架（如 Cox 回归或 DeepSurv），无法建模风险的时间动态变化；电子健康记录定义疾病发病时间存在天然的不精确性。
生物学解释的相关性本质：视网膜潜在特征与血浆蛋白的关联是通过 OPLS-DA + 弹性网络建立的统计关联，不能解释为因果机制；PRS 在调整后几乎全部不显著，提示遗传信号被视网膜表型所覆盖或两者贡献重叠。
临床部署门槛：作者自述”当前诊断和预测准确率尚未达到广泛临床采纳的阈值”，且临床医生指出的系统集成（88.9%）、患者接受度（88.9%）、监管审批等障碍需要大规模多中心随机对照试验来解决。

9｜可迁移价值（Transferable Value）

“低质量样本≠无用样本”的设计哲学：质量感知模块的思路可推广至任何面向真实世界部署的医学 AI 系统——与其在数据清洗阶段丢弃边缘样本，不如将质量评估内化为模型的一部分，让模型学会从噪声中提取有效信号。这对病理图像、超声、可穿戴设备信号等场景均适用。
冻结基础模型 + 多任务预测头的轻量范式：三条异构骨干网络（CNN-like / Mamba / 自监督 Vision Transformer）冻结后仅训练预测头，既保留了各架构的互补表征能力，又将训练成本压缩至单 GPU 级别。这一策略对算力受限场景下的多任务迁移学习有直接参考价值。
完整的临床验证证据链设计：从回顾性外部验证 → 纵向预测 → 生物学可解释性 → 盲法沉默试验 → 开放标签试点 + 用户接受度问卷，构成了从算法到临床采纳的完整叙事路径。该论文的验证体系本身可作为医学 AI 临床转化研究的范本。

10｜一句话总结（One-line Summary）

Reti-Pioneer 以”冻结基础模型 + 质量感知融合”的低算力范式，首次在多国多族裔人群中证明眼底彩照可以一站式筛查六种内分泌代谢疾病并预测未来发病风险，为视网膜作为系统性健康窗口提供了从算法到前瞻性临床部署的完整证据链，但其跨族裔泛化与绝对诊断精度仍距临床独立采纳有实质差距。