2021 11-06 可变剪接及其表观遗传调控(万字长文总结) 本文根据 2016 年 8 月复旦大学倪挺教授在「表观基因组学暑期国际讲习班」中的报告整理而成,本文采用第一人称叙述,文中的“我”皆指倪挺教授。报告原视频详见: 表观遗传系列视频13 | 复旦倪挺:表观遗传调控与基因剪接(附PPT) ,视频全长约 2h34min,文字约 1.6 万字。虽然是四年前的视频,但内容依然不过时,可帮助我们快速建立对转录水平表观调控的认识。 倪挺博士,复旦大学...阅读全... 阅 读 全 部 >
2021 11-05 原来转录过程这么不规矩!——可变剪接 ❝如大家所知,RNA是由DNA转录而来的。然而,作为一个转录本来源的DNA转录区域却不一定是由某个连续DNA片段提供的,其中甚至可能有间隔DNA转录区的交叉,不同区域不同顺序的转录产物共同组成一个转录本,极大增加了DNA产生RNA的复杂度。高通量测序和表达谱芯片可以检测这种非常有意义的转录本剪接,今天小编就带大家简单了解一下可变剪接。❞概述可变剪接是指从...阅读全文>>... 阅 读 全 部 >
2021 11-04 来说说关于DNA甲基化检测和CpG岛的小常识 DNA甲基化是最早发现的基因表观修饰方式之一,可能存在于所有高等生物中。DNA甲基化能关闭某些基因的活性,去甲基化则诱导了基因的重新活化和表达。甲基化的主要形式有5-甲基胞嘧啶,N6-甲基腺嘌呤和7-甲基鸟嘌呤。原核生物中CCA/TGG和GATC常被甲基化,而真核生物中甲基化仅发生于胞嘧啶。DNA的甲基化是在DNA甲基化转移酶(DNMTs)的作用下使CpG二核苷酸5'端的胞嘧...阅读全文>... 阅 读 全 部 >
2021 10-22 手把手教你用R处理常见的数据清洗问题(附步骤解析、R语言代码) 本文约5300字,建议阅读10+分钟。本文将介绍数据清洗过程的主要步骤,并通过案例和代码演示如何利用R语言进行数据清洗。R是进行运算、清洗、汇总及生成概率统计等数据处理的一个绝佳选择。此外,由于它独立于平台、短期内不会消失,所以生成的程序可以在任何地方运行。并且,它具备非常棒的辅助资源。本文摘录自James D.Miller撰写的《数据科学统计学》(Statistics for Data S...... 阅 读 全 部 >
2021 10-16 使用dplyr进行数据操作(30个实例) dplyr软件包是R中功能最强大,最受欢迎的软件包之一。该软件包由最受欢迎的R程序员Hadley Wickham编写,他编写了许多有用的R软件包,如ggplot2,tidyr等。本文包括一些示例和如何使用使用dplyr软件包来清理和转换数据。这是一个关于数据操作和数据处理的完整教程。什么是dplyr?dplyr是一个强大的R软件包,用于处理,清理和汇总非结构化数据。简而言之,它...阅读全文>... 阅 读 全 部 >
2021 10-11 R语言网络爬虫初学者指南(使用rvest包) 引言网上的数据和信息无穷无尽,如今人人都用百度谷歌来作为获取知识,了解新鲜事物的首要信息源。所有的这些网上的信息都是直接可得的,而为了满足日益增长的数据需求,我坚信网络数据爬取已经是每个数据科学家的必备技能了。在本文的帮助下,你将会突破网络爬虫的技术壁垒,实现从不会到会。大部分网上呈现的信息都是以非结构化的格式存储(html)且不提供直接的下载链接,因此,我们需要学习一些知识和...阅读全文>... 阅 读 全 部 >
2021 10-08 R语言对象的操作总结 现在本文将4种对象的程序方法进行进一步总结和凝练。一、is和as系列函数is 和as系列函数涉及不同类型数据和对象的鉴定和转换。我们经常在R语言编程过程中需要了解某一种数据的类型,也可能进行转换方便计算,所以诸位要熟悉他们。is系列是判断某一个数据中的观察值是何种类型,或者数据属于何种对象与结构• is.character(x) #判断是否为字符型• is.numer...阅读全文>>... 阅 读 全 部 >
2021 09-29 R知识速查表,值得收藏 编者按:R知识速查表囊括R基本知识,R高级知识,R数据导入,R数据可视化,R数据处理,字符串处理,正则表达式,日期时间处理,数据转换和机器学习。对于R新手,建议按着这个顺序学习和实践。【温馨提示:点击图片,可查看大图】一:基本 R 知识二:高级R知识三:数据可视化知识四:数据导入知识五:数据处理知识六:数据转换知识七:字符串处理知识八:正则表达式知识九:日期时间处理十:机器学习知识参考资料:...... 阅 读 全 部 >
2021 09-21 FastQ & FastA傻傻分不清? 如果你对生物信息不那么了解,或许会搞混FASTQ和FASTA,它们都是序列保存的一种格式,是用于NGS分析的基础数据。其实二者很好区分,并且可以通过一定的处理进行格式转换。FASTQFASTQ:是基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式。你拿到的测序数据均是fastq格式的。其序列以及质量信息都是使用一个ASCII字符标示,最初是由Sanger开发,目的是将F...阅读... 阅 读 全 部 >
2021 09-17 学习R语言,一篇文章让你从懵圈到入门 在实际工作中,每个数据科学项目各不相同,但基本都遵循一定的通用流程。具体如下:数据科学工作流程数据导入数据整理反复理解数据数据可视化数据转换统计建模作出推断(比如预测)沟通交流自动化分析程序开发下面列出每个步骤最有用的一些R包:数据导入以下R包主要用于数据导入和保存数据feather:一种快速,轻量级的文件格式。在R和python上都可使用readr:实现表格数据的快...阅读全文>>... 阅 读 全 部 >