2022 07-06 数据开发常用的几种数据预处理和数据整理方法 翻译|谢旭审校|张卫滨本文比较了用于数据准备的几种方法,它们分别是提取-变换-加载批处理(ETL)、流式获取和数据整理。本文还讨论了数据准备如何与可视化分析相关联,以及不同用户角色(如数据科学家或业务分析人员)应如何共同构建分析模型的最佳实践。要点在常见的机器学习/深度学习项目里,数据准备占去整个分析管道的60%到80%。市场上有...阅读全文>>... 阅 读 全 部 >
2022 07-05 hisat2比对率批量统计的方法 grep 'Overall alignment rate: ' *.log |sed 's/Overall alignment rate: //'|sed 's/.log://'可以重定向阅读全文>>... 阅 读 全 部 >
2022 07-04 linux中文件名带?号的解决方案 windows中写了一个shell脚本批量mv改名,导致文件名结尾出现?ls -b 显现原形rename方法失败循环+mv方法可用代码如下:for i in *.log?;doi=${i%.log?}echo $imv ${i}.log? ${i}.logdone成功!阅读全文>>... 阅 读 全 部 >
2022 07-03 实用帖-手把手教你如何上传GEO数据库 还在为不知如何上传GEO数据库而发愁吗?还在为不愿意看繁琐的英文帮助而不知所措吗?一篇帖子教你如何上传GEO数据库,建议收藏,再也不用愁“书到用时方恨少”了。1、创建账号如果要上传GEO数据库,首先要创建NCBI帐号, 网址:https://www.ncbi.nlm.nih.gov/geo/submitter/登录成功后,回到GEO的主页,点击 Submissi...阅读全文>>... 阅 读 全 部 >
2022 07-03 如何0编程操作FASTA和FASTQ 现在搞科研,动不动就要接触高通量测序,想要来篇高分文章,没有高通量感觉都不太好意思,所以如果你还不知道什么是FASTQ和FASTA,那就太OUT了,其实他们在我们用的最多的PUBmed里随处可见:FASTQ是基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式。其序列以及质量信息都是使用一个ASCII字符标示。FASTQ格式中,每个序列通常有四行:第一行,序列标识以及相关的描述信息... 阅 读 全 部 >
2022 07-02 NASA 的 RNA-seq 标准流程代码 测试开头爸妈: 今年不回来么?1引言没错, 就是美国大名鼎鼎的航天局 NASA, 2021 年 4 月 23 日 在 iScience 期刊上发表了一篇处理 RNA-seq 数据的一篇文章。这篇文章提供了标准分析的一些代码,并且采用了 ENCODE 计划中的参考代码。这个 pipeline 主要包括了 quality control, read trimming,...阅读全文>>... 阅 读 全 部 >
2022 07-02 RNA-seq : Hisat2+Stringtie+DESeq2 RNA-seq 即转录组测序技术,就是用高通量测序技术进行测序分析,反映出 mRNA,smallRNA,noncodingRNA 等或者其中一些的表达水平,寻找表达差异的基因预测或验证相关的分子机制及功能。2016 年发表在 nature protocols 上一篇关于转录本精确定量[1]的文章:文章中以 HISAT + Stringtie + Ballgrown 的...阅读全文>>... 阅 读 全 部 >
2022 07-01 ceRNA介绍及分析研究策略 前言现在生物学研究中对RNA的研究与日俱增,siRNA,piRNA,miRNA, LncRNA一个个明星分子层出不穷。更有一些新的名词不断产生,如ceRNA。其实ceRNA的提出也有一段时间了,而且它并不是一种新的RNA分子,而是一种调控机制。在最近的研究中表明基因在转录调控中存在多种模式作用,microRNA作为其中一种重要的调控因子,是长短约22nt的短链RNA,能够通过抑制目...阅读全文&... 阅 读 全 部 >
2022 06-30 R_circlize包_和弦图 作者:李誉辉四川大学在读研究生 R_插值_拟合_回归_样条[参考来源](https://jokergoo.github.io/circlize_book/book/the-chorddiagram-function.html)par参数:lty: line type. 可以是数字或者字符, (0 = “blank”, 1 = “solid” (default), 2 = “dashed...阅读全... 阅 读 全 部 >
2022 06-30 利用ComplexHeatmap绘制热图(一) 作者简介taoyan:R语言中文社区特约作家,伪码农,R语言爱好者,爱开源。个人博客: https://ytlogos.github.io/简介Complexheatmap是由顾祖光博士创建的绘制热图的R包,在他的GitHub有十分详细的小品文(Vignettes)说明。Complexheatmap是基于绘图系统grid,因此如果有相应grid的知识,学习起来应该更顺手!设计Complexheat... 阅 读 全 部 >