中国学者2天连发9篇NAR，全部为医学数据库方向

Nucleic Acids Research/核酸研究，IF17分，在生物医学大数据领域一直都是投稿人心中的“圣洁女神”，发表在该刊上的文章同行认可度高、行业影响力大。

随着医疗大数据时代的来临，越来越多的高质量临床数据被整理收集，形成了一套完整的数据库。近期我们发现，中国学者在NAR上接连发表了9篇生物医学数据库（database）的原创研究。

这些公共数据促进了临床数据和科研资源的深度化和多样化的使用，将为医疗事业的进步和相关科研工作的开展做出巨大贡献。

科研猫对9个数据库的相关研究进行了罗列，分别为：HIT 2.0、exoRBase 2.0、TF-Marker、m5C-Atlas、R-loopBase、DiseaseMeth version 3.0、CircleBase、InsectBase 2.0、UFold。想进行数据挖掘或者进行数据检索的同学们，可以具体进行研究。

HIT 2.0

研究团队：复旦大学曹志伟及同济大学唐凯临团队（ 2021-11-19）

研究题目：HIT 2.0: an enhanced platform for Herbal Ingredients' Targets

数据库介绍：

随着对中药活性成分的深入研究，现已发现很多具有独特活性和药效的潜在创新药物。然而，如何进一步对其药效机制进行挖掘、发现全新的机制和靶点，成为创新中药研究的关键。中药活性成分靶点鉴定一直是研究者们所探寻的重要课题。

虽然有几个数据库提供了类似的信息，但大多数都局限于 2010 年之前的文献，急需更新。HIT 2.0 在这里构建为最新的精选数据集，重点关注涵盖 PubMed 文献 2000-2020 的草药成分靶点。目前，该数据库拥有 10031 个化合物-靶点活性对。分子靶点包括那些被直接/间接激活/抑制的基因/蛋白质、蛋白质结合剂和酶底物或产物。与 TTD、DrugBank、KEGG、PDB、UniProt、Pfam、NCBI、TCM-ID 等数据库建立了交联。

更重要的是，该数据库可以从每日发布的 PubMed 文献中自动挖掘靶点和管理我的靶点。因此，用户可以检索和下载包含感兴趣化合物的潜在靶点的最新摘要，即使是那些尚未包含在 HIT 中的化合物。此外，用户可以登录“我的靶点”系统，根据检索到的摘要在线管理个人靶点分析。该数据库可以在 http://hit2.badd-cao.net 上访问。

exoRBase 2.0

研究团队：复旦大学黄胜林，孟志强及江南大学黄朝晖团队（ 2021-11-19）

研究题目：exoRBase 2.0: an atlas of mRNA, lncRNA and circRNA in extracellular vesicles from human biofluids

数据库介绍：

细胞外囊泡 (即EVs) 是小的膜囊泡，含有丰富的不同 RNA 种类，具有特殊的功能和临床意义。exoRBase 2.0是一个 EV 长 RNA（即exLRs）的存储库，来自不同人体体液的 RNA-seq 数据分析。在 exoRBase 2.0 中，exLRs 的数量增加到 19643 条mRNA、15645 条lncRNA和 79084 条circRNAs，这些 RNA 来自大约 1000 个人类血液、尿液、脑脊液和胆汁样本。

exoRBase 2.0 不仅整合和比较了 exLR 表达谱，而且还可视化了不同生理和病理条件下循环 EV 的通路水平功能变化和起源的异质性。该数据库可用于从人类生物体液中识别新的 exLR 特征，将有助于发现新的循环生物标志物以改善疾病诊断和治疗。

TF-Marker

研究团队：哈尔滨医科大学李春权，张建及南华大学Wang Qiuyu团队（ 2021-11-19）

研究题目：TF-Marker: a comprehensive manually curated database for transcription factors and related markers in specific cell and tissue types in human

数据库介绍：

转录因子 (TF) 在生物过程中起着关键作用，通常用作细胞标记。TFs 和相关标记在识别人类疾病中的特定细胞类型方面的新重要性增加了对人类 TFs 和相关标记集的全面收集的需求。

该研究开发了 TF-Marker 数据库，http://bio.liclab.net/TF-Marker/，为我们提供了细胞/组织特异性 TF 和相关标记。

通过人工整理数千篇已发表的文献，将 5905 条包含 TF 和相关标记信息的条目根据其功能分为五种类型：

(i) TF：调节标记表达的 TF；

(ii) T Marker：受TF调控的标记；

(iii) I Marker：影响TF活性的标记；

(iv) TFMarker：充当标记的 TF ；

(v) TF Pmarker：充当潜在标记的 TF。

TF-Marker的5905个条目包括1316个TFs、1092个T Markers、473个I Markers、1600个TFMarkers和1424个TF Pmarkers，涉及人类383种细胞类型和95种组织类型。TF-Marker 将成为了解不同组织和细胞调节模式的宝贵资源。

m5C-Atlas

研究团队：福建医科大学Chen Kunqi及Wei Zhen团队（ 2021-11-19）

研究题目：m5C-Atlas: a comprehensive database for decoding and annotating the 5-methylcytosine (m5C ) epitranscriptome

数据库介绍：

5-甲基胞嘧啶 (m5C ) 是 RNA 上最普遍的共价修饰之一，可以调节多种 RNA 功能，包括核输出、RNA 稳定性和翻译。

m5C -Atlas是一个用于全面收集和注释 RNA 5-甲基胞嘧啶的数据库。该数据库包含 13 个物种的 166 540 个 m5C 位点，这些位点来自 5 种碱基分辨率表观转录组分析技术。

此外，通过综合管道从 22 项不同研究收集的 351 个 RNA 亚硫酸氢盐测序样本中量化条件特异性甲基化水平。该数据库还提供了几个新特征，例如 m5C 基因座的进化保守性、它与 SNP 的关联以及与 RNA 二级结构的任何相关性。所有 m5C -atlas 数据都可以通过一个用户友好的界面访问，其中 m5C 表观转录组可以自由探索、共享和使用假定的转录后机制（例如 RBP 与 RNA 的分子间相互作用、microRNA 相互作用和剪接位点）进行注释。

m5C -Atlas 数据库可在如下网址免费访问：https://www.xjtlu.edu.cn/biologicalsciences/m5C -atlas

R-loopBase

研究团队：南京大学Chen Jiayu，武汉大学陈亮及芝加哥大学Zhong Xiaoming团队（ 2021-11-18）

研究题目：R-loopBase: a knowledgebase for genome-wide R-loop formation and regulation

数据库介绍：

R-loop 是由一条RNA:DNA杂合链和一条单链DNA构成的三链核酸结构。它在转录调控、免疫球蛋白类别转换、端粒维持、DNA损伤以及损伤修复等过程中发挥重要作用。然而，关于它们的基因组定位的争议和对其调控网络的不完全理解给 R-loop 研究带来了巨大的挑战。

R-loopBase (https://rloopbase.nju.edu.cn)，通过基因组学和文献数据的系统整合来解决这些紧迫的问题。首先，基于由 11 种不同技术生成的 107 个高质量全基因组 R-loop 映射数据集，该研究提出了一组用于高置信度 R-loop 定位的人类 R-loop 区域参考集，并发现与R-loop相关的保守基因组特征。其次，通过文献挖掘和多组学分析，该研究策划了迄今为止在多个物种中最全面的 R-loop调节蛋白及其靶向R-loop列表。这将有助于揭示R-loop动力学的调节网络及其与癌症和神经系统疾病发展的潜在联系。

最后，该研究集成了数十亿个功能基因组注释，并开发了交互式界面，以在注释良好的基因组环境中搜索、可视化、下载和分析 R-loop和R-loop调节器。R-loopBase 允许所有用户，包括那些几乎没有生物信息学背景的用户，将这些数据用于他们自己的研究。研究人员预计 R-loopBase 将成为 R-loop 社区的一站式资源。

DiseaseMeth version 3.0

研究团队：哈尔滨工业大学张岩及Gu Yue团队（ 2021-11-18）

研究题目：DiseaseMeth version 3.0: a major expansion and update of the human disease methylation database

数据库介绍：

由于 DNA 甲基化与疾病有关，因此其用作生物标志物的潜力越来越大。在过去的 5 年中，DNA 甲基化数据的数量也大幅增加。

DiseaseMeth 3.0版，其中包括的疾病数量从88个增加到162个，高通量配置文件样本从32701个增加到49949个。该研究还开发了一个统一的分析管道，用于从存储在数据库中的原始数据中识别差异 DNA 甲基化基因 (DMG)。在 99 种疾病中发现了 22 718 个 DMG。

这些 DMG 使用两个自行开发的在线工具，甲基化疾病相关性和癌症预后与共甲基化，在疾病评估中提供应用。所有查询结果都可以下载，也可以根据使用的搜索部分通过箱线图、热图或网络模块显示。DiseaseMeth 3.0 版可在 http://diseasemeth.edbc.org/ 免费获得。

CircleBase

研究团队：北京大学乔杰，毛凤彪及中国科学院北京基因组研究所李明锟团队（ 2021-11-18）

研究题目：CircleBase: an integrated resource and analysis platform for human eccDNAs

数据库介绍：

高通量测序技术的快速发展导致在人类基因组中发现了数以千计的染色体外环状 DNA (eccDNAs)。功能损失实验很难在圆形和线性染色体上进行，因为它们通常会重叠。因此，解释 eccDNA 的分子功能具有挑战性。

CircleBase (http://circlebase.maolab.org)，这是一个综合资源和分析平台，用于在多种细胞类型中管理和解释 eccDNA。CircleBase 通过结合测序数据集、计算预测和手动注释来识别推定的eccDNA功能。它将它们分为六个部分，包括靶向基因、表观遗传调控、调控元件、染色质可及性、染色质相互作用和遗传变异。eccDNA 靶向和调节网络通过信息可视化工具显示，然后进行优先排序。功能富集分析显示，排名靠前的癌细胞 eccDNA 富含致癌途径，例如 Ras 和 PI3K-Akt 信号通路。相比之下，来自健康个体的 eccDNAs 没有显著富集。

CircleBase 提供了一个用户友好的界面，用于搜索、浏览和分析各种细胞/组织类型的 eccDNA。因此，筛选潜在的功能性 eccDNA 并解释其在人类癌症和其他疾病中的分子机制是有用的。

InsectBase 2.0

研究团队：浙江大学李飞团队（ 2021-11-18）

研究题目：InsectBase 2.0: a comprehensive gene resource for insects

数据库介绍：

昆虫是地球上最大的动物群体，通过提供资源、传播疾病和破坏农作物生产对人类生活产生巨大影响。最近，产生了大量的昆虫基因组和基因数据。非常需要一个综合数据库来管理、共享和挖掘这些资源。

InsectBase 2.0 (http://v2.insect-genome.com/)，涵盖 815 个昆虫基因组、25 805 个转录组和 > 1600 万个基因，包括 15 045 111 个编码序列、3 436 022 3 'UTRs, 4 345 664 5'UTRs, 112 162 miRNAs 和 1 293 430 lncRNAs。此外，该研究使用内部标准管道注释了属于 164 个基因家族的 1 434 653 个基因；215 986个潜在的水平转移基因和 419 条 KEGG 通路。提供了 BLAST、JBrowse2 和 Synteny Viewer 等 Web 服务用于搜索和可视化。

InsectBase 2.0 为动物进化和无脊椎动物比较基因组学相关社区的昆虫学家和研究人员提供了一个宝贵的平台。

UFold

研究团队：西安交通大学Fu Laiyi团队（ 2021-11-18）

研究题目：UFold: fast and accurate RNA secondary structure prediction with deep learning

数据库介绍：

对于许多 RNA 分子，二级结构对于 RNA 的正确功能至关重要。从核苷酸序列预测 RNA 二级结构是基因组学中长期存在的问题，但随着时间的推移，预测性能已经达到了平台期。传统的 RNA 二级结构预测算法主要基于通过自由能最小化的热力学模型，这强加了强大的先验假设并且运行缓慢。

该研究提出了一种基于深度学习的方法，称为 UFold，用于 RNA 二级结构预测，直接根据带注释的数据和碱基配对规则进行训练。UFold 提出了一种新的类似图像的 RNA 序列表示，它可以被完全卷积网络 (FCN) 有效地处理。该研究在家族内和跨家族 RNA 数据集上对 UFold 的性能进行了基准测试。它在家族内数据集上显著优于以前的方法，同时在不同的 RNA 家族上进行训练和测试时实现了与传统方法相似的性能。UFold 还能够准确预测伪结。它的预测速度很快，每个序列的推理时间约为 160 ms，最长可达 1500 bp。

运行 UFold 的在线 Web 服务器可在 https://ufold.ics.uci.edu 获得。代码可在 https://github.com/uci-cbcl/UFold 获得。

从NAR释放的信息我们看到两点：

1：生物医学数据库的创立、维护和更新，对于医学的进步具有强大的推动作用，是未来生物医学大数据时代的“卡脖子”问题，是生物信息学方向研究人员可以追逐的前景方向。

2：对于有条件的大型科研团队，对自身大批量的临床数据进行“数据库化”是非常有必要的，可以着手积累这方面的人才和技术。

转自：科研猫