首页 > 组学教程 > Nature重磅综述 | 利用组学大数据评估人的生物学年龄
2023
06-17

Nature重磅综述 | 利用组学大数据评估人的生物学年龄

机器学习的兴起为大数据时代掀起新的浪潮。机器学习是人工智能的一个子集,通过泛型算法从数据集中发现模式和相关性并建立逻辑,并根据数据分析结果做出最佳决策和预测。目前机器学习已大量应用于各行各业,助力各产业或科学研究的深度提升。美国加州斯坦福大学的Tony Wyss-Coray团队于2022年6月在Nature Reviews Genetics上发表的一篇名为“Measuring biological age using omics data”的综述,总结了通过利用各种组学数据,借助机器学习构建衰老时钟的方法、发展、比较和应用等,并阐述了机器学习在识别生物衰老新型生物标记物方面的能力,为推动衰老的预警与干预及精准医疗策略的发展提供了强大助力。

摘 要

衰老是引发老年人疾病和残疾的关键风险因素。大量研究致力于衰老相关疾病及延长健康寿命,这些研究表明,靶向衰老过程本身可有助于“恢复”生理机能。然而,要实现这一目标,就需要在分子水平上测量生理年龄和衰老速度。在最新高通量组学技术的推动下,新一代生理衰老测量工具能够在分子分辨率上对衰老表征进行量化。表观基因组学、转录组学、蛋白质组学和代谢组学数据均可以通过机器学习来构建“衰老时钟”,并能鉴定生理衰老的新型生物标记物。

正 文

在全球范围内,人口正在迅速老龄化,但人们的健康寿命,即没有疾病的生命时期并没有增加。衰老会影响全身不同器官,进而引发疾病,是心脏病、神经退行性疾病和癌症的最大风险因素。而这些与年龄相关的疾病往往具有区别于衰老进程的独特病理特征。直到最近,科学家们才开始关注,衰老本身是否可以作为疾病的共同根源来处理。过去几十年里的几项突破性研究首次提出了实现健康衰老和延长寿命的可能性。在动物模型和人类上的研究以及多种实验范式(如热量限制、异体共生和部分表观遗传重编程)中发现多种可以调节寿命的基因,这表明操纵衰老生物学来“恢复”复杂模式生物的生理机能是可能的。然而,将上述干预措施应用于临床需要测量个体的生理年龄和生物衰老速率。因此,需要一种反映细胞类型、组织、器官(如心脏或大脑)或整个生物体的生理年龄的分子生物标记物来开发针对衰老的药物。

生物衰老是极其复杂的,并由失调的细胞稳态和生化过程的相互作用所驱动的。几乎每一个生物过程都受到衰老的影响,研究人员已经提出了无数的生物标志物来尝试了解和测量这些过程(图1)。这些标记物从明显的外表特征如变白的头发,扩展到分子变化如白细胞端粒长度。在过去的十年中,组学方法的出现使解析衰老生物学的分子复杂性成为可能(图1)。高通量基因组学、蛋白质组学和代谢组学方法可以对成千上万的表观遗传标记、转录本、蛋白质和代谢物进行表征和定量,并可以在分子水平上揭示复杂生物体随年龄发生的整体变化。然而,大规模组学数据的可用性对分子衰老的分析和解释提出了新的挑战,该领域越来越多地转向机器学习技术,将组学数据提炼成复合衰老生物标志物,帮助解释复杂的衰老生物学,并指导临床决策(框1和图2)。

图1 衰老生物标志物分类。

衰老的明显特征(最上图)如肌肉衰弱和头发花白,自古以来就被用来评估一个人的生理年龄。然而,随着现代生物医学的出现,利用器官功能的物理和分子读数(从上第二图),如血压、炎症标志物和代谢标志物来诊断健康与疾病成为主要焦点。直到最近,人们才将注意力转向利用细胞和分子生物学来评估生理年龄。衰老的标志(从上到下第三图),如端粒缩短和细胞衰老,成为理解衰老的现代科学框架,在分子水平上指导了衰老的研究。这在一定程度上引领了基于组学的衰老时钟生物标记物(最下图)的发展,它试图将随着衰老发生的整个分子变化整合到生理年龄的综合测量中。

时序年龄预测器是在衰老背景下解释组学数据的一种框架,该领域已将其通俗地称为衰老时钟,并显示出相当大的前景。衰老时钟是一种机器学习模型,可以学习大样本中的分子特征的模式,如血细胞中特定基因组位点的CpG甲基化水平或血浆中的蛋白质浓度,这可以用来估计样本来源的个体年龄(图2)。人们普遍假设,这个估计年龄可以作为个体生理年龄的衡量标准,而估计年龄和实际年龄之间的差异,称为“Δ年龄”或“年龄差距”,反映了他们过去衰老速度的变化(图2)。这些假设通过实验的观察结果得到了支持,即年龄差距为正(也被称为年龄加速)的个体有更大的死亡风险,并容易患上一些衰老相关疾病,如心脏病、代谢综合征和某些癌症。

在这篇综述中,作者批判性地审视了使用组学数据构建的衰老时钟的研究现状。在此过程中,作者试图阐明衰老时钟可以实际测量什么,如何改善衰老时钟以增进人们对衰老生物学的理解,并思考关于组学技术支持的衰老生物标志物的未来研究前景。

  • Omic时钟

衰老时钟是利用多种机器学习模型由许多不同类型的组学数据构建的(框1和图2)。每个组学层次在测量衰老的不同方面都有一定的内在优势和劣势。作者在这篇综述中调研了该领域迄今为止的主要发展(图3),尤其关注了来自不同组学、已经能够准确测量的一些衰老表型以及衰老标志物。

  • DNA甲基化

表观遗传改变是衰老的一个标志,最近的研究表明,通过瞬时的表观遗传重编程,细胞可以获得再生,功能得到恢复。该领域主要关注一种特殊的表观遗传标记:CpG二核苷酸中的胞嘧啶甲基化(CpG甲基化),它随着年龄的增长而变化。第一个DNA甲基化时钟是由Bocklandt等人在2011年建立的弹性网络模型(框1),他们仅使用大约100个唾液样本证明了高度准确的实际年龄预测(误差大约在5年内)。这个“表观遗传衰老时钟”的概念在2013年被明确命名和普及,首先由Hannum等人使用656个全血样本构建了Hannum时钟(71-CpG时钟),然后由Horvath使用包含51种不同组织和细胞类型的8,000个样本进一步构建了泛组织Horvath时钟(353-CpG时钟)。自2013年这些里程碑式的研究以来,已经建立了其他几个表观遗传时钟,包括Weidner等人的3-CpG时钟、Lin等人的99-CpG时钟和Vidal-Bralo等人的8-CpG时钟。所有这些时钟,以及在后续章节中讨论的大多数时钟,都是使用稀疏线性回归方法构建的,该方法已成为可解释性模型领域的标准(框1)。

DNA甲基化时钟的一个特别有趣的方面是,不管用于测量的组织类型是什么,它们能够准确预测各种不同类型组织的年龄,表明它们测量的是细胞类型之间共享的衰老信号。此外,在许多癌症队列中,癌症组织在Horvath时钟上显示出明显的年龄加速,这表明它测量了衰老和许多癌症之间共享的表观遗传失调位点。

然而,死亡风险,一种被广泛用于衡量“整体”生理年龄的因素,也显示出与这些时钟之间微弱而多变的关联,这就提出了一个问题,即它们实际上测量的是什么物质。一个已知的混杂因素是血细胞组成,它也随着年龄的增长而变化从而损害健康。但尝试消除和利用细胞成分变化造成的混淆也并没有改变这些时钟与死亡率和其他健康结果的弱相关性。

框1 构建衰老时钟的机器学习模型

衰老时钟是一种机器学习模型,它通过学习数学公式,并根据整个寿命中随年龄变化的特征(如基因表达水平)来估计个体的年龄。最普遍的模型是基于线性回归的模型,通过特征和年龄数据计算出一条最佳拟合线(或多维数据中的最佳拟合平面)。更具体地说,“最佳拟合”是指成本函数最小化的平面,通常是所有预测的剩余平方误差(图2a)。结果是一个用加权特征线性组合预测年龄的方程(预测年龄 =β0 +β1 X1 +β2 X2 +...+ βn Xn,其中Xi是特征i值的向量,βi是成本函数的相应权重),可以应用于其他数据集。这些模型的优势在于它们的可解释性:如果一个特征被赋予一个正的权重,那么该特征的值越高则对应于更高的预测年龄,权重越正向,该特征的影响就越强。然而,标准线性模型在应用于组学数据时往往存在一些问题。如果分子特征比样本多(即2万个基因特征和40,000个样本),就很难从数据中获得正确的关系。其中一个原因是维度魔咒(图2b):获得数据完整分布所需的样本数量随每个样本中测量的变量数量呈指数增长。另一个原因是组学数据的相关性结构复杂,线性回归不能很好地处理它。

因此,惩罚性线性回归模型,即套索、脊和弹性网络回归,被广泛用于减少线性模型中的特征数量(创建稀疏性),并解释特征之间的强相关性。绝大多数的组学衰老时钟都是用这些方法(或者偶尔用其他稀疏线性回归方法)的变体构建的。这些模型通过对增添更多特性施加惩罚来工作。惩罚的确切形式各不相同,但它们都有降低高度相关或信息较少特征的权重的效果,有时甚至降到零,这样只选择重要特征的子集。虽然在概念上相似,但每种回归方法都有细微的不同,可以测量不同的衰老信号。一项研究表明,脊回归时钟和弹性网络回归时钟都可以检测到热量限制小鼠的减速衰老,但只有脊回归时钟可以检测到长寿侏儒小鼠的减速衰老,这表明模型选择可能很重要,而且这取决于数据集。

其他通常用于衰老时钟的机器学习模型包括支持向量机、决策树和神经网络。深度神经网络是一种特别令人感兴趣的方法,当应用于大规模数据时,它在几个不同的领域都显示出了前景。神经网络有几种类型,但其基本原理是连接大量的简单节点(“神经元”),从数据中学习更复杂的非线性关系(图2c)。神经网络在处理小数据集时表现不佳,但如果它们能在包含数万到数十万个样本的大数据集上进行训练,那么它们的表现往往会远远优于其他模型。随着组学数据规模的增长,神经网络被越来越多地用于构建各种组学类型的衰老时钟,并已经证明了一些生理年龄的测量方法。然而,考虑到其复杂性,神经网络比其他模型更难解释,因为它通常不可能推断出神经网络所学习到的数据中的生物关系。尽管如此,在设计可解释的神经网络方面已经取得了进展,通过明确地将特定的生物通路编码到其结构中或反向传播信息来输入特征,在设计可解释的神经网络方面已经取得了进展。这些令人兴奋的方法可能会更好地捕捉衰老的复杂性。

遵从第一性原则考虑的方法,从数十万(甲基化阵列)到数百万(亚硫酸氢盐测序)的可能位点测量中选择随实际年龄变化最大的CpG位点并不能最大程度上捕获相关的功能衰老生物学。为了支持这一观点,一项包含14个队列的大型荟萃分析表明,在极端情况下,将甲基化时钟的准确性提高到极高的水平实际上降低了其与死亡风险的相关性,似乎有可能“过度拟合”这些与衰老表型无关的分子衰老“噪声”模型,这表明仅对实际年龄进行测试可能是一种次优方法。

这些局限性导致了第二代表观遗传时钟的发展,该时钟旨在通过开发将模型训练与生物衰老重要特征更直接地联系起来的方法,以识别衰老过程中更多功能相关的分子变化。2016年,Yang等人在测试稀疏线性模型之前,通过预先选择胎儿组织中甲基化水平低、成年期甲基化水平增加的CpG位点,并映射到Polycomb群体目标(PCGT)的启动子,构建了一个与细胞分裂数量相关的表观遗传时钟。作者利用PCGT复合物启动子的超甲基化与干细胞增殖相关的生物学知识,构建了一个专注于衰老生物学这一方面的时钟。引人注目的是,这个时钟独特地检测到了癌前组织样本的衰老加速。

该领域还开发了一系列专门设计与死亡风险相关的第二代时钟。Zhang等人使用LASSO Cox回归法确定了10个与死亡风险高度相关的CpG位点。Levine等人建立了DNAm PhenoAge时钟,该时钟使用标准方法,但基于实际年龄和与死亡风险相关的9个临床参数的线性组合,预测了复合生理年龄得分。Lu等人构建了DNAm GrimAge时钟,该时钟通过两个阶段来预测生理年龄,首先构建模型预测吸烟史和已知与死亡风险相关的7种血浆蛋白的浓度,然后结合这些输出结果模拟成时钟来预测死亡时间。根据设计,所有这些时钟都与死亡风险有密切的关联,其中一些显示出与心脏病风险、身体功能(平衡性、握力、行走速度)和一些健康的血液化学指标有关。与其他时钟相比,DNAm GrimAge时钟始终显示出与年龄相关功能障碍的各种指标之间更强的关联,包括心脏病、身体虚弱、认知和身体机能衰退。

最近,Belsky等人建立了DunedinPoAm DNAm时钟,这是一个令人兴奋的进展,不同于许多以前的时钟通过训练来预测个体当前的衰老状态,而是使用纵向数据更直接地预测个体的衰老速率。该研究利用了一个为期1年的出生队列(n=810),追踪了在26岁、32岁和38岁时收集的18个器官功能的临床化学和生理生物标志物的变化来量化表型,包括身体功能、认知能力、自我评估的健康状况和死亡率,并比对DNAm表型时钟。

表观遗传时钟领域的创新速度是非常快的,而利用表观遗传血液衰老作为其他器官系统生理衰老的指标的能力更加突出了它们作为临床生物标志物的潜在用途。然而,由于组织衰老的速度各不相同,血细胞衰老测量和解释身体其他部分衰老机制可能是有限度的,这可以从第二代衰老时钟和器官特异性年龄相关功能障碍测量之间的微小联系(尽管在统计学上具有显著意义)得到证明。这一观点得到了进一步支持,研究表明,在特定组织中测试的表观遗传时钟与这些组织的功能状态有更强的关联。此外,虽然表观遗传时钟已被证明具有高度可重复性,但对基因组CpG甲基化的分子和细胞原因和后果普遍缺乏理解仍然是实现这些模型的潜在障碍。

图2 组学衰老时钟领域中重要的机器学习概念。

a,衰老时钟的基本概念为一个简单的线性回归模型。群体抽样用于学习分子特征(如蛋白质的表达水平)和使成本函数最小化的因变量(年龄)之间的关系(图表)。然后用学习到的关系来预测年龄,并用实际年龄和预测年龄之间的残差来衡量生理年龄(输出模型)。b,维度魔咒是组学机器学习的一个挑战。在给定密度下进行抽样,所需的样本数量随着每个样本中测量的特征数量呈指数增长。实际上不可能密集抽样高维组学分布,这也导致了去使用额外的方法来减少特征空间。c,简单深度神经网络的一般结构。特征作为输入信息并传递到一组节点(隐藏层1),这些节点用数学函数(通常是一组已知权重的线性组合)转换输入,然后将值传递到下一层。该模型通过将多个隐藏层上具有可学习权重的简单函数链接在一起,获得了额外的表达能力。每个节点的权值可以通过最小化类似于线性回归情况的成本函数来联合优化。

  • 转录组学

利用RNA在基因表达水平上研究衰老时钟,将衰老与基因更直接地联系起来,增加了这些模型的合理性和实验可测试性。Peters等人2015年的一项研究是转录组时钟的第一次正式试验,他们利用来自多个大队列的外周血单个核细胞的基因表达数据,使用标准方法研究转录组衰老时钟。转录组时钟在不同队列中具有高度可变的年龄预测准确性,在所有测试队列中,转录组时钟在时序年龄预测方面的准确性明显低于表观遗传时钟。这可能部分是因为来自多个平台的微阵列和测序数据被联合使用,给数据增加了技术噪音。然而,转录组时钟被发现与一些生物标志物和危险因素(如吸烟)有关联,并且Horvath和Hannum时钟没有注意到,这与血液收缩压也有某种特殊关联。尽管噪音很大,但这可能表明使用不同时钟来衡量生物衰老的不同方面具有潜在的附加价值。

2018年,Fleischer等人利用人真皮成纤维细胞转录组数据研究了一个时钟。采用集成方法将多个线性判别分析分类器组合在一起,以降低转录组数据的噪声。该方法在时序年龄预测和检测早衰症样本加速衰老方面优于基于惩罚线性回归的标准时钟,表明该方法稳定了转录噪音并提高了性能。然而,该模型并没有在独立的测试数据集上进行评估,因此该方法是否真正有所改进还需观察。

Meyer等人在2021年取得了有趣的进展,他们证明对转录组数据进行简单的二值化和相对年龄缩放可以去除数据的噪音,并将秀丽隐杆线虫的年龄预测准确性提高到理论的上限(与蠕虫的年龄一样精确,以1天为增量进行跟踪)。此外,这种时钟可以检测到长寿的daf2突变体或受辐射和热量限制影响个体的预期生物学年龄变化,并在不同的寿命阶段中效果良好。作者表明,在秀丽隐杆线虫中,确实有可能产生一个准确的、有生物学意义的转录组衰老时钟。此外,他们利用Fleischer等人的人类成纤维细胞数据证明,由二值化转录组数据衍生的弹性网络时钟将实足年龄预测提高到r2为0.92,平均误差为6.63年,可以检测早衰症样本的加速衰老。然而,这些方法是否能产生跨人类队列模型还有待观察。

Holzscheck等人使用了另一种建模框架——深度神经网络,该框架在其他领域性能强大且越来越受欢迎(框1)。他们实现了一种人工神经网络,限制神经元输入且和已知生物通路连接。这使得研究人员能够为时钟中表示的每个通路提取一个重要分数,增加了黑匣子模型的合理性。他们报道说,他们的生物时钟与多种生物皮肤衰老指标有关,他们的模型能够以预期的方式对计算机中已知的生物年龄扰动做出反应。

尽管转录组时钟领域已经研究出了几种方法来克服转录组数据中的噪声,但这些时钟在大型人类队列中的准确性和可重复性仍不清楚。大多数研究都是在小样本上进行的,没有在独立队列中进行测试,或者使用较老的微阵列技术,这比现代RNA测序的准确性和可重复性都要低。此外,它们是否有能力重复测量人类生物衰老的各个方面,如死亡风险、心脏病、身体功能和认知能力,在很大程度上仍有待确定。

  • 蛋白质组学

在过去的十年中,基于质谱、基于抗体和基于核酸适配体蛋白质组学的发展使单个样本中数千种蛋白质的准确定量成为可能。利用多种蛋白质组学技术的研究表明,在人血浆和脑脊液中,数千种蛋白质会随着年龄的变化而变化,这导致了多种蛋白质组学衰老时钟的发展。Baird等人和Menni等人的开拓性研究分别使用人类脑脊液和血浆样本,基于SomaLogic核酸适配体蛋白组学平台开发了第一个衰老时钟模型,但没有检查与任何衰老表型或器官功能的关联。

2018年,Tanaka等人描述了首个基于血浆蛋白的衰老时钟,该时钟研究了蛋白质组年龄差距与生物衰老之间的关系。Lehallier等人进一步证实了多个独立队列中稳定且高度准确的时序年龄预测。这两项研究都使用标准方法构建了蛋白质组时钟,并观察了与许多生理和临床衰老表型的关联,包括身体功能、认知测试分数和健康的临床化学标记。在一项随访研究中,Tanaka等人显示了与死亡率、多重发病率、和健康寿命的相关性。这些研究表明,免疫和神经元通路是重要的衰老过程。Lehallier等人还证明了血浆衰老时钟中的许多蛋白质是通过异体共生和运动来调节的,这是两种“年轻化”的范式。

后续研究表明,在血浆蛋白质组衰老时钟中发现的数十种蛋白质直接调节寿命,数百种蛋白质与不同器官的健康状况有生物学上的联系。事实上,与器官功能的直接联系代表了血浆蛋白质组学在研究不同组织和细胞类型之间衰老差异方面的巨大优势。血浆包含有几乎所有器官和细胞类型的蛋白质,这使得开发专注于特定组织衰老生物学时钟成为可能。此外,缺失蛋白质平衡是衰老的一个标志,而其他衰老的标志,如营养感知失调、细胞间通讯改变和细胞衰老,也意味着蛋白质组的改变,如胰岛素和肽激素、信号蛋白和炎症细胞因子的差异水平。这些与衰老生物学的直接机制联系使蛋白质组学成为开发生物学上合理衰老时钟的一个特别好的平台。

尽管血浆蛋白质组学在发现衰老生物标志物方面有许多理论优势,但仍有局限性。肾功能对血浆蛋白浓度的影响尚不完全清楚,但可能混淆衰老分析。事实上,许多器官的功能可能会对血浆蛋白质组的组分产生影响,这可能是一个重要特征,但需要思考分析。此外,蛋白质组学技术比DNA定量技术更新颖且缺少更进一步的研究,因此蛋白质组学时钟比甲基化时钟更少被广泛验证。尽管以SomaLogic核酸适配体为基础的平台特别强大,可以准确量化各种生物液体和细胞提取物中的7,000多种蛋白质,但目前还不能准确量化整个蛋白质组。随着蛋白质组学技术的进步,对衰老蛋白质组学的进一步和更大规模的研究可能会带来更多的见解。

与DNA甲基化和转录组时钟类似,目前还不清楚蛋白质组的变化在多大程度上代表了整个身体的所有衰老过程。尽管与其他组学相比,蛋白质组学有更多的证据是乐观的。对动物异体共生和血浆交换的研究表明,循环蛋白可以对整个身体的衰老表型产生因果影响,包括骨骼肌、心脏和大脑。未来对由衰老时钟识别的蛋白质进行的实验研究,将可以更深入地理解衰老生物学以及它与衰老的组学特征之间的关系。

  • 代谢组学

最先进的质谱和核磁共振方法可以识别人类血浆中数百到数千种代谢物,多项研究试图了解它们与衰老之间的相互作用。在爱沙尼亚和芬兰的一项大型生物样本研究中,使用血浆的1H-NMR来识别预测死亡风险的代谢物。作者确定了多种充分研究的代谢物,如白蛋白、极低密度脂蛋白颗粒和氨基酸,它们与多种原因引起的死亡有关。随后,另一项大型1H-NMR生物研究从血浆中的56种可靠的代谢物中开发了代谢组学时钟,并评估了代谢组学年龄差距、心血管表型和死亡率之间的关系。在独立的前瞻性队列中,发现代谢组年龄增长与心血管危险因素、心血管疾病风险和全因死亡风险相关。

其他研究使用多种靶向和非靶向质谱和核磁共振方法从血浆和尿液代谢物生成代谢组时钟,对这些时钟与疾病风险因素(高血压、糖尿病、肥胖、吸烟、饮酒、缺乏体力活动)、收入和心理风险因素(抑郁、焦虑、创伤后应激障碍)的关联进行了测试。代谢组学年龄增长与甘油三酯水平、肥胖、酗酒、糖尿病、抑郁、焦虑和创伤后应激障碍相关。Robinson等人还评估了质谱代谢组学衰老时钟对生物通路的富集,并确定了几种维生素、氨基酸和外源生物相关的代谢富集。

基于核磁共振的代谢组学的低成本使生物样本库规模的队列量化成为可能,这是将代谢组学时钟应用于人群健康的优势。然而,开展和解释代谢组学实验仍然具有挑战性。非靶向代谢组学方法的优势在于能够检测数千种代谢物特征;然而,大多数通过质谱和核磁共振检测到的化合物是孤体化合物,也就是说,它们的结构尚未确定。灵敏度是非靶向方法的另一个挑战,许多代谢物在一些样本中被检测到,但在其他样本中却没有,这限制了许多分析化合物用于建模的有效性。有针对性的方法具有更好的灵敏度,但由于预先定义了一组代谢物,又大大减少了检测到的特征数量,阻碍了新的代谢物的发现。在靶向和非靶向方法中,即使是对已确定的化合物,对产生它们的生物过程往往也知之甚少。此外,尽管在非常大的样本量上进行了试验,但代谢组学时钟已被证明比其他组学数据类型具有更低的年龄预测精度,而且对衰老特征的效应是中等的。因此,代谢组学数据中的噪声可能会限制它们目前在衰老研究中的效用。

尽管存在这些挑战,新陈代谢和衰老之间的紧密联系为进一步研究代谢组学时钟提供了理由。与血浆蛋白质组学类似,血浆和尿液代谢组学也携带了全身多个组织的信息,相对于血细胞的甲基化和转录组学时钟,可以增加潜在的代谢衰老信息。

  • 其他组学

其他新兴技术已经开始利用糖链、微生物组组成和染色质状态来构建衰老时钟,这只是其中的几个例子。虽然这些类型数据的研究还不够深入,但它们是未来研究的一个令人兴奋的领域。

糖组学

糖链是一类多样的生物分子,在新陈代谢、细胞信号转导、蛋白质和RNA功能中发挥重要作用,是体内许多结构的组成部分。全面识别和量化人体内的各种糖链结构仍然极具挑战性,随着年龄的增长,糖链会发生广泛的变化,然而糖链的变化在衰老过程中还未被充分认识。虽然目前还不可能全面地研究糖链,但最近的质谱研究只检查了少数几个经过充分研究的糖链浓度,就已经能够准确地预测时序年龄和衰老表型。Krištić等人在多个欧洲队列中观察到血清IgG N-糖基化变化,且可以预测年龄。此外,IgG糖链年龄与代谢健康的临床标志物相关。在进一步的研究中,IgG N-糖基化与健康的代谢指标,包括胰岛素水平、体重指数、甘油三酯水平和II型糖尿病有进一步的联系。Merleev等人使用质谱方法检测了血浆中17种常见糖蛋白上159个糖链浓度,也显示出作为衰老时钟的希望,尽管结果还未在独立队列中得到验证,也未与任何衰老表型相关。

微生物组组成

过去十年的研究表明,肠道微生物组的组成随着年龄的增长而变化,长寿的人与普通老年人的微生物组组成不同,某些微生物及其产生的代谢物对人类健康有益。尽管它与健康和长寿有着密切的联系,但构建基于微生物群落的衰老时钟一直是一项挑战。Galkin等使用深度神经网络模型从肠道微生物组组成预测时序年龄。他们的时钟与其他组学模式训练的时钟具有相似的准确性,在一个单独的队列中,微生物组时钟预测I型糖尿病患者明显年龄更大。他们还观察到,某些经过充分研究的有益微生物(如Akkermansia muciniphila)的丰度对年龄预测模型的影响比检测到的大多数其他微生物更大。

染色质标记和染色质状态

虽然CpG甲基化已被广泛研究,但染色质结构、状态或构象随年龄的其他表观遗传变化尚未被彻底研究。这在很大程度上可能是由于批量染色质可及性和染色质构象捕获分析的复杂性和噪声造成的,这些分析受到样品之间的细胞成分差异和其他批次效应的强烈影响。尽管如此,染色质状态的变化与早衰症(核纤层及其相关的异染色质结构都会遭到破坏)密切相关。这些变化被假设为是正常衰老的一个重要驱动因素,这使其成为未来研究的一个有趣领域。衰老免疫细胞的染色质可及性研究表明,CD8+ T细胞的染色质可及性随年龄的变化而改变。事实上,这些变化可能会导致免疫细胞组成随年龄的变化而变化,导致naïve T细胞的丧失,并向更分化和功能失调的细胞状态转变。染色质可及性分析的进展将使未来在大样本、纯化细胞群和单细胞中的研究成为可能,这将进一步阐明染色质状态在衰老过程中的作用。

鉴于甲基化时钟的重要性,在衰老时钟领域,CpG甲基化和染色质状态之间的联系尚需更多研究。血液细胞中的甲基化水平已被观察到与细胞组成密切相关,这可能是年龄改变染色质状态的结果。此外,研究表明,CpG甲基化状态的改变可以选择性地改变与核层异染色质的联系,这可能是导致衰老的一个驱动因素。多组学衰老时钟可以进一步剖析这种关系是未来研究的一个令人兴奋的领域。

图3 2008-2021年衰老时钟研究的主要进展和研究的时间表。

在2008年至2021年间组学技术使衰老时钟研究领域向前推进。值得注意的是,这并不是重要研究或技术的完整列表。时间轴是指根据PubMed的出版日期。GH,生长激素;DHEA,脱氢表雄酮;DNAm,DNA甲基化;RNA-seq,RNA测序。

  • 比较不同的时钟

由于基于不同分子数据类型和多种机器学习模型构建的时钟数量不断增加,了解不同时钟之间的相互关系以解析它们捕获的衰老信号对该领域来说变得越来越重要。很少有整合分析比较不同时钟之间的生物年龄估计,但确实存在的少数比较表明,组学层次内和跨组学层次普遍缺乏一致性。

尽管这些大部分来自血细胞的模型都是根据个体的年龄进行建模和训练的,但第一代表观遗传时钟(Hannum, Horvath, Lin, Weidner, Vidal-Bralo)的年龄差距似乎在彼此之间只有轻微的相关性(r = 0.1-0.5)。这可能是由于DNA甲基化阵列中存在较大的噪声,限制了在数据集上应用这些模型的稳健性。最近的一项分析表明,在增加样本量的基础上训练第一代甲基化时钟可以将年龄预测精度提高到几乎完美的水平,消除了年龄差距和生物衰老之间的关联,支持噪声作为这些模型中的重要因子。这一发现表明,这些生物钟中的年龄差距并不主要由生物衰老信号驱动。第二代死亡率优化时钟(Zhang, PhenoAge, GrimAge)中的年龄差距也只是轻微相关。然而,它们通常与不同队列的生理衰老和死亡率有更密切的联系,需要做更多的工作来了解它们捕捉到的衰老生物学的具体特征。

不同类型的组学衰老时钟中,许多时钟是独特的。Peters等人的转录组年龄差距与Horvath和Hannum clocks的不同生物衰老指标相关;Tanaka等人的血浆蛋白质组年龄差距与Horvath时钟无关,与GrimAge和物候时钟的相关性较低;Robinson等人的代谢组学年龄差距与同一队列中的Horvath、Hannum和物候时钟没有相关性,但年龄差距与被测表型之间的相关性有重叠。在一项多组学研究中,作者在单个队列中构建了自己的端粒、表观遗传学、蛋白质组学和代谢组学时钟,发现表观遗传学和转录组学时钟年龄差距之间以及蛋白质组学和代谢组学时钟年龄差距之间存在轻度相关性。有趣的是,表观遗传年龄差距与蛋白质组学和代谢组学年龄差距没有相关性,强调不同的组学技术可能捕捉不同的衰老信号。在未来,评估驱动时钟的生物机制对于评估其相对效用至关重要。将多个组学层合并到复合模型中的多组学衰老时钟也将有助于了解哪些分子衰老特征在组学层之间共享或携带不同的表型信息。

从上述研究中可见,第一代表观遗传钟似乎主要捕捉到了与时间相关的信号,而第二代表观遗传钟和其他组学衰老钟捕捉到了更多生理相关的衰老信号。基于不同分子特征的时钟之间的相关性相当低,不同的生物衰老方面的敏感性进一步强调了时钟间的差异(图4)。

图4 时钟年龄差距与衰老表型之间的关联。

年龄差距(顶部)是大多数衰老时钟的主要衡量指标。不同衰老时钟的年龄差距对各种衰老表型表现出不同的敏感性,这表明它们可能在不同程度上衡量衰老生物学的不同方面。甲基化时钟对死亡率非常敏感,而转录组学、蛋白质组学和代谢组学时钟对衰老表型疾病的敏感性增加。

未来展望

衰老时钟有望为深入了解衰老的生物学过程提供思路,并成为指导未来衰老治疗应用的潜在临床工具。为了在这些方面取得进展,需要进一步考虑和完善四个概念。首先,时钟需要根据其测量内容进行调整(例如,细胞、组织或有机体的年龄和功能);其次,为了获得最佳的时钟性能和生物学相关性,可能需要使用多种分子模式和功能数据;第三,我们需要在理解时钟在多大程度上衡量相关或因果衰老过程方面取得进展;第四,必须更好地理解时间和年代在建模中的作用。

  • 定义衰老时钟的应用

大多数衰老时钟是根据血液和皮肤细胞的分子特征开发的,然后对整个生物体的生物年龄进行估计。虽然这些时钟在组织和有机体功能或死亡率上有令人惊讶的拟合效果,但为特定细胞或组织功能建模的时钟在测量衰老和揭示生物学方面可能更强大。

在这方面,越来越清楚的是,在个体之间和单个个体内部,老龄化都有相当的复杂性和差异(图5)。最近对人类进行的一项纵向多组学研究确定了四种人群水平的老龄化途径,这些途径在富集与肝脏、肾脏、代谢和免疫功能障碍相关的生物通路的个体中可见。作者还观察到,个体水平与人群水平老龄化趋势有相当大的偏差,这主要是因为个体存在不同的衰老速率和老龄化机制的差异。对大鼠的研究发现,不同器官和细胞类型的转录组具有截然不同的衰老轨迹。对人体组织的超微结构研究也显示了类似的结果,甚至不同的人脑区域随着年龄的增长表现出不同的基因表达轨迹。在细胞水平上,细胞衰老的研究表明,组织中的一些细胞比其他细胞更早衰老,它们分泌的因子甚至可能通过血液介导的细胞通讯刺激局部或其他组织中其他细胞的衰老。综上所述,这些观察结果支持了这样一种观点,即衰老时钟需要更有针对性地利用衰老的有机体复杂性。

图5 测量全身衰老。

衰老在个体间(左)和个体内(中)水平不同。不同组织以不同速率,通过不同的机制衰老。心脏、大脑、免疫或代谢组织会在不同的个体中经历不同程度的衰老,这些个体可能会发展出特别影响这些组织的衰老疾病,但身体其他部位功能仍然正常。即使在单个组织中,不同的细胞也会以不同的速率衰老(右)。衰老细胞是细胞衰老表型的例子,它对不同的器官和细胞类型(如巨噬细胞、内皮细胞和胶质细胞)产生不同程度和速率的影响。衰老细胞可能通过分泌促衰老因子加速其他细胞的衰老,某些细胞可能更容易受到其环境中促衰老因子的影响。

  • 测量衰老的理想分子特征

由于基于不同组学模式的衰老时钟通常不一致,并且没有明确的真正的生物衰老指标来评估它们,现在说哪种分子类型可能是生物年龄和衰老速率的最佳预测因子还为时过早。显然,了解时钟中单个的生物学特性在合理化衰老测量的有效性方面具有优势,在这方面,转录组和蛋白质组可能是最有用和可验证的。蛋白质组还有几个额外的优势,它们通常是生物过程的直接介体,并且构成了目前疾病中绝大多数的药物靶点。此外,它们在许多与老龄化相关的情景,尤其是在心脏、肾脏、肝脏、代谢、炎症和神经退行性疾病中,显示出巨大的临床实用性和作为预后生物标记物的前景。因此,与染色质标记和RNA转录物等其他分子特征相比,蛋白质作为临床生物标志物已被广泛青睐。例如,在神经退行性疾病病理学中破坏蛋白质稳态的首要地位表明,蛋白质组衰老时钟可能为大脑衰老提供独特的见解。

  • 了解相关性和因果关系

最后,当前的衰老时钟都是相关的统计模型。它们不能洞察衰老的因果关系,但可以阐明可验证的假设,并支持或反驳分子衰老的其他观察结果。然而,即使具有相关性,在评估衰老时钟时也必须小心,因为仅仅评估它们能否准确地预测时序年龄是不够的。事实上,如甲基化时钟部分所强调的那样,使用年龄作为唯一的指南可能会产生误导。因此,在这里选择不关注时钟的年龄预测准确性,而是关注评估可以通过时钟的年龄差距来衡量哪些生物衰老表型。

为了超越相关性,该领域需要在实验测试衰老时钟背后的分子机制方面取得进一步进展。特别是对于表观遗传时钟,关于时钟CpG位点的改变如何影响基因表达和年龄相关生理学的下游变化,人们知之甚少。表观遗传重编程的新证据表明,CpG甲基化可能是这一系列变化的诱因,Lu等人发现,小鼠视网膜细胞的表观遗传重编程需要DNA甲基化酶,但还需要更多的工作。转录组和蛋白质组时钟具有潜在优势,因为它们更适合于基因筛查方法,并且已知一些因果途径。现代人类遗传学方法,如遗传共定位和孟德尔随机化,也可用于测试衰老时钟模型中的因果关系。随着大规模队列中分子性状的数量性状位点研究和衰老时钟的全基因组关联研究变得更加稳健,期望这些方法的应用能够进一步阐明使衰老时钟指针转动的分子齿轮。

  • 超越实际年龄

虽然迄今为止开发的许多衰老时钟仅使用按实际年龄来训练模型,但该领域正在通过将额外的特定衰老表型或衰老生物学纳入特征选择和模型训练而不断超越。最突出的是第二代甲基化时钟的成功,该时钟将实际年龄与各种生物学特征相结合,以提高其在特定环境中的预测能力。PhenoAge时钟在临床化学的死亡风险因素和年龄上进行了训练。GrimAge时钟采用了类似的方法,但直接在临床蛋白质标记物和每年吸烟量上训练甲基化时钟,然后将其输出与年龄和性别结合到Cox比例风险模型中,以预测死亡率。有趣的是,这两个模型都用已知的疾病生物学训练了血浆蛋白质和代谢物的估计器,再次指出了血浆是未来研究的沃土。Yang等人和Lu等人采取了不同的方法,分别对细胞特征(有丝分裂和端粒长度)进行时钟训练,以开发对细胞衰老这些方面具有特定敏感性的模型。

Nelson等人最近的一项模拟研究支持训练这些复合模型的基本原理,表明第一代甲基化衰老时钟在识别因果衰老位点方面比随机因素会更差,这是由于横断面衰老队列中发生的队列选择效应。此外,他们表明,随着年龄的增长,因果衰老特征的表现往往会变得越来越少,因为不健康的老年人由于死亡或健康问题而无法参与研究,因此不太可能被纳入研究。然而,与生理年龄时钟方法一样,纳入关于死亡率的额外生物信息的方法能够纠正这种影响,并以更高的频率选择因果位点。

通过有目的的特征选择或通过开发复合训练指标来结合衰老生物学的特定方面的建模,有助于提高模型的可解释性并指导它们识别导致衰老的特征。最近的一系列研究通过分析免疫细胞和炎症标志物来开发一种免疫衰老时钟来预测死亡率、心血管结果和免疫衰老。作者使用来自时钟的信息将 CXCL9鉴定为免疫衰老的潜在因果调节因子,并通过细胞模型中的功能跟踪验证了这一结果,这进一步证明了这些混合方法发现衰老的因果调节因子的能力。

也许更接近测量衰老生物学的更大胆的方法是在时钟训练中排除实际年龄。事实上,实际年龄是生物学差异的最大来源之一,因此,无偏捕捉数据变化的模型最有可能捕捉衰老信号。基于主成分分析的生物年龄估计器已证明了这一概念,该估计器涉及无监督降维以无偏地识别衰老信号,似乎甚至优于按时间顺序排列的时钟。当涉及到从具有深度和广度的特征、样本数和物种的大型数据集中发现进化保守的衰老特征时,先进的机器学习模型(如神经网络)可能是降维的特别强大的工具。事实上,由于衰老的基本生物学过程在许多寿命差异大的物种中在很大程度上是保守的,所以测量普遍的衰老原因或衰老速度的时钟应该无处不在。此外,由于这些模型将不再受时间的阻碍,它们可能会揭示使用传统时钟无法发现的衰老生物学的新原理。因此,这些新模型可能被称为“年龄计”,而不是“时钟”(根据定义测量时间)。

最后,值得注意的是,迄今为止建立的绝大多数衰老时钟都没有根据纵向数据进行训练,也没有直接预测未来的衰老速率,这一缺陷可能会限制其当前的临床实用性和解释力。设计用于使用纵向测量专门估计衰老速率的时钟尤其有前景,这仍然是一个严重未被探索的前沿领域。

结 论

组学革命揭示了衰老生物学的绝对复杂性,显示了成千上万的分子特征随年龄变化。衰老时钟是一个激动人心的前沿领域,可以充分利用组学数据,将衰老生物标志物的研究范围扩大几个数量级。该领域已经表明,可以从多种组学数据中开发出稳健的年龄估计器,这促进了对生物学的理解,并提高了开发精确诊断和替代终点的希望,以测试抗衰老干预的有效性。

由DNA甲基化数据、转录组学、蛋白质组学和代谢组学构建的衰老时钟都证明了识别生物衰老新生物标记物的能力,在不久的将来,其他组学模式可能也会发挥同样的作用。越来越多的研究人员使用多组学技术对队列进行分析,未来将多组学纳入衰老时钟的努力将进一步扩大对衰老分子特征的认识,并可能扩大这些模型的预测能力。将生理学和组织功能直接纳入衰老时钟模型的方法也被证明是富有成效的,扩展这种方法可能会在未来产生更多可解释和可操作的见解。

机器学习工具的不断进步将提高在组学数据中识别相关衰老特征的复杂性。能够区分更复杂、非线性衰老过程的模型是未来研究的一个激动人心的领域。例如,Lehallier等人证明,血浆蛋白质在三种非线性衰老“波”中发生变化;同样,血细胞或皮肤中的表观遗传和其他分子特征在整个生命周期中以明显的波动模式变化。同样重要的是,细胞和组织以不同的速度衰老,未来的衰老时钟研究可以受益于他们打算测量衰老的哪些方面:个体的整体器官年龄,来预测死亡率,或者心脏、肺或大脑的年龄,以更深入地了解衰老的特定疾病。鉴于老龄化带来的巨大疾病负担,很明显,衰老时钟将为推动衰老研究及精准医疗策略开发方面发挥重要作用。



最后编辑:
作者:萌小白
一个热爱网络的青年!

发布评论

表情