首页 > 更多分享 > refTSS:为转录起始位点精准“定位”的数据库
2025
09-08

refTSS:为转录起始位点精准“定位”的数据库

转录从哪里起始?答案是——在转录起始位点(TSS)。TSS 不只是一个位置符号,它把转录本、启动子、转录因子结合、染色质状态这些信息连成一条线。

在基因表达调控的研究中,转录起始位点(Transcription Start Site, TSS) 的精确定位是理解基因如何被激活或抑制的关键。然而,传统的TSS注释往往存在分辨率低、组织特异性差等问题,难以满足日益精细的转录组学研究需求。

来自Riken的研究团队在《Journal of Molecular Biology》上发表了一篇重要论文,介绍了一个全新的数据库——refTSS, 一个面向人类和小鼠的 高质量 TSS 参考数据集,为TSS研究带来了突破性进展。

数据库最新版地址(建议收藏): http://reftss.clst.riken.jp/

数据库初版地址:https://reftss.riken.jp/reftss-v3/Main_Page

论文链接:https://www.sciencedirect.com/science/article/pii/S0022283619302530

论文
论文

refTSS 是什么?

简言之,refTSS 是把大量公开的 TSS 资源再加工整合后得到的“参考 TSS 集”,覆盖人和小鼠。数据条目包括每个 TSS 的基因注释、峰位坐标、质量评估结果,以及在物种之间的保守性信息,是研究转录起始与启动子调控的实用基础资源。

数据库
数据库

refTSS数据来自哪里?它是如何构建的?

refTSS 并不是某一次实验的产物,而是把多个高质量来源汇聚、重处理并统一标准化得到的成果。主要来源包括(但不限于):

  • FANTOM5 的 CAGE 数据(高精度定位 5' cap,适合检测 TSS);
  • DBTSS、EPDnew、ENCODE 等已发表或公共资源的 TSS/启动子注释;
  • 研究组对这些数据进行了峰识别、跨资源合并、质量过滤与物种间比对,最后生成可查询的 reference 集与可视化 track。

最终得到:

  • Human TSS peaks:224,694
  • Mouse TSS peaks:173,204

提供了哪些注释与质量信息?

每个 TSS 除了坐标外,还带有:

  • 基因/转录注释(若有)
  • QC 指标:TATA-box 富集、GC 含量分布、以及用 TomeTools 的“TSS-ness”分类
  • 与 ENSEMBL Regulatory Build(ERB)的重叠类型(promoter、promoter-flanking、enhancer 等)
  • 人鼠保守性(通过 liftOver 比对得到)

47–56% 的 TSS peaks 与 ERB 注释的 promoter/相关区域重叠;约 45% 的 TSS peaks 在人鼠间被识别为保守(不同类别按是否注释为 ortholog 等进一步细分)。

应用场景:

  • 定位 TSS:当你用 RNA-seq、长读长测序或 CAGE 得到转录起始信息时,可用 refTSS 验证/注释 TSS。
  • 研究启动子调控:将 ChIP-seq(TF、Pol II、H3K4me3/H3K27ac 等)与 refTSS 对齐,可以更精确地分析哪个启动子在什么时候活跃。
  • 比较物种保守性:refTSS 包含人-鼠保守性信息,便于比较进化保守的启动子使用。
  • 支持功能注释与新转录本鉴定:对新发现的转录本或 isoform,refTSS 可作为确认其起始位点的参考。

(在发育或刺激时间序列的转录调控研究中,refTSS 特别有用 —— 它可以帮助把“哪个启动子在什么时候开关”这个问题落到基因组坐标上。)

怎么使用这个数据资源?

refTSS 的网页界面
refTSS 的网页界面
  • 网站(http://reftss.clst.riken.jp/)可直接搜索、下载TSS 文件(BED/GTF)、查看每个 TSS 的 QC 与注释,下载地址:http://reftss.clst.riken.jp/datafiles/;
  • 提供 UCSC TrackHub(可直接加载到 Genome Browser)便于可视化比对 ChIP-seq、ATAC-seq、RNA-seq 等数据;
  • 推荐把 refTSS 当成“TSS 参考集”来做 promoter-level 定量、启动子注释或把 epigenome 数据与具体 TSS 关联分析。

小结

如果你的研究涉及启动子使用、转录起始调控或需要精确定义 TSS,refTSS 是一份高价值的参考资源:它把多种高质量证据整合,提供坐标、QC、基因注释与保守性信息,便于在基因组水平做跨数据整合分析。只是要注意:对低丰度或细胞类型特异的 ncRNAs,目前覆盖仍然有限——需要结合你自己的实验数据或等待后续更新。



最后编辑:
作者:萌小白
一个热爱网络的青年!

发布评论

表情