2022 07-08 dplyr包-行选择的方法 《R包学习》专栏·第3篇 文| R学习者2352字 | 6分钟阅读这是dplyr包系列第三篇文章。前两篇文章如下:前两篇文章是从 数据列的角度做选择和变换处理。这篇文章是从 数据行的角度,描写行选择的一系列操作与方法。数据的行,可以看作为 观察、样例、对象等。 数据的行选择,主要包括如下内容:1 基于比较运算的行选择2 基于字符匹配的行选择3 基于正则模式的行选择4 基于多条件的行选择5 跨越多列... 阅 读 全 部 >
2022 07-08 R语言颜色综合运用与色彩方案共享 转自:EasyCharts今天这篇主要讲解R语言颜色综合运用,主要跟大家介绍如何提取那些专业色彩包中的颜色搭配用于在基础绘图系统和高级绘图系统中共享。其实无论是R语言的预设配色系统、自定义颜色表还是哪些专属配色包,我们所使用(或者R语言识别的)的仅仅就是一组字符向量所代表的色值而已,并不神秘。通过scales中的色彩获取函数,我们可以将专属配色主题(RColorBrewer、ggthemes)中的... 阅 读 全 部 >
2022 07-08 组间基因表达值-蜂群图的绘制(R教程) 在文献中,我们经常能够看到这样的散点图。例如,通过RNA-seq或qPCR比较特定基因在不同分组样本中的整体表达水平。文献中的蜂群图与其称它们为散点图,其实它们是有独自名字的—蜂群图。当然原则上它们仍属于散点图的范畴,因为它仍将单个样本直接显示为点。但其特别之处在于,蜂群图采用了一种逻辑,以确保所绘制的点彼此靠近且不会重叠,并能有效呈现出点分布的局部密度信息,直观而不失优雅。...阅读全文>... 阅 读 全 部 >
2022 07-08 Python科研统计作图Plotnine+Seaborn+matplotlib替代R ggplot2系列(一) Python作为胶水语言的强大之处已经不需要我过多描述了,它在机器学习领域、大型网站搭建框架等都有非常广泛的应用,比如TensorFlow的python接口,基于Python的Tornado和Django框架,国内的知乎和豆瓣、以及Youtube大部分是基于这些python的框架。当然最为重要的是它在生物信息领域的应用也较为广泛,比如基于扩增子的测序,还有一些全基因组测序等后期分析的软件很多都是基... 阅 读 全 部 >
2022 07-08 科研巨佬的“万水千山图”是如何绘制的? 最近,在文献中看到这样一个令人惊艳不已的组合图,如下。很明显,这个图至少是由8个小图表组合而成的,通过坐标轴粗细和图表间隔的不一致可以看出来。可见,熟练使用Ai(Adobe illustrator)也是成为科研巨佬的必备技能。(The Plant Cell, 2020)除去两侧的聚类树和条形图,组合图的中间部分其实是一种比较新颖的山峦图,也称作山脊线图(Ridgeline plots),可以用作图... 阅 读 全 部 >
2022 07-08 R 语言的高颜值的配图法则 | 论文写作 笔者前一段时间忙于为新文章制作配图,多处搜集配图优雅美观的优质论文。最后终于找到一篇发表在 Science Advances 的文章——通过高通量测序分析揭示了小 RNA 在小鼠卵母细胞和早期胚胎中的调控作用。文章中除了复杂的 RNA Seq、Chip Seq 分析,图表的搭配十分美观。虽说我们是崇高的科(ke)学 (yan) 家 (gou),但关乎我们毕业大计的 SCI 也得要「高颜值」。以常见... 阅 读 全 部 >
2022 07-08 技术专栏丨10大机器学习算法速览,带你开启AI之旅 转自:TalkingData原文作者:Sunil Ray译者:TalkingData 张永超原文链接:https://www.analyticsvidhya.com/blog/2017/09/common-machine-learning-algorithms/“简介”从广义上讲,机器学习算法有三种类型:监督学习该算法是由一个目标/结果变量(也成为因变量)组成,该变量可以从一组给定的预测...阅读... 阅 读 全 部 >
2022 07-06 数据开发常用的几种数据预处理和数据整理方法 翻译|谢旭审校|张卫滨本文比较了用于数据准备的几种方法,它们分别是提取-变换-加载批处理(ETL)、流式获取和数据整理。本文还讨论了数据准备如何与可视化分析相关联,以及不同用户角色(如数据科学家或业务分析人员)应如何共同构建分析模型的最佳实践。要点在常见的机器学习/深度学习项目里,数据准备占去整个分析管道的60%到80%。市场上有...阅读全文>>... 阅 读 全 部 >
2022 07-05 hisat2比对率批量统计的方法 grep 'Overall alignment rate: ' *.log |sed 's/Overall alignment rate: //'|sed 's/.log://'可以重定向阅读全文>>... 阅 读 全 部 >
2022 07-03 如何0编程操作FASTA和FASTQ 现在搞科研,动不动就要接触高通量测序,想要来篇高分文章,没有高通量感觉都不太好意思,所以如果你还不知道什么是FASTQ和FASTA,那就太OUT了,其实他们在我们用的最多的PUBmed里随处可见:FASTQ是基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式。其序列以及质量信息都是使用一个ASCII字符标示。FASTQ格式中,每个序列通常有四行:第一行,序列标识以及相关的描述信息... 阅 读 全 部 >