Python作为胶水语言的强大之处已经不需要我过多描述了,它在机器学习领域、大型网站搭建框架等都有非常广泛的应用,比如TensorFlow的python接口,基于Python的Tornado和Django框架,国内的知乎和豆瓣、以及Youtube大部分是基于这些python的框架。当然最为重要的是它在生物信息领域的应用也较为广泛,比如基于扩增子的测序,还有一些全基因组测序等后期分析的软件很多都是基... 阅 读 全 部 >
2022
07-08
07-08
实习僧招聘网爬虫数据可视化
我本来对实习僧网站是没什么好感的,因为之前自己在实习僧上投的实习简历几乎全部都石沉大海了(一个文科生偏要去投数据分析岗不碰壁才怪~_~)!然鹅看到最近知乎爬虫圈儿里的两大趋势:爬美图;爬招聘网站。后来大致观察了下,几乎各类大型招聘文章都被别人爬过了,自己再去写免不了模仿之嫌,而且大神们都是用Python去爬的(Python我刚学会装包和导数据),自己也学不来。现在只能选一个还没怎么被盯上的招聘网站... 阅 读 全 部 >
2022
07-08
07-08
科研巨佬的“万水千山图”是如何绘制的?
最近,在文献中看到这样一个令人惊艳不已的组合图,如下。很明显,这个图至少是由8个小图表组合而成的,通过坐标轴粗细和图表间隔的不一致可以看出来。可见,熟练使用Ai(Adobe illustrator)也是成为科研巨佬的必备技能。(The Plant Cell, 2020)除去两侧的聚类树和条形图,组合图的中间部分其实是一种比较新颖的山峦图,也称作山脊线图(Ridgeline plots),可以用作图... 阅 读 全 部 >
2022
07-08
07-08
R 语言的高颜值的配图法则 | 论文写作
笔者前一段时间忙于为新文章制作配图,多处搜集配图优雅美观的优质论文。最后终于找到一篇发表在 Science Advances 的文章——通过高通量测序分析揭示了小 RNA 在小鼠卵母细胞和早期胚胎中的调控作用。文章中除了复杂的 RNA Seq、Chip Seq 分析,图表的搭配十分美观。虽说我们是崇高的科(ke)学 (yan) 家 (gou),但关乎我们毕业大计的 SCI 也得要「高颜值」。以常见... 阅 读 全 部 >
2022
07-08
07-08
技术专栏丨10大机器学习算法速览,带你开启AI之旅
转自:TalkingData原文作者:Sunil Ray译者:TalkingData 张永超原文链接:https://www.analyticsvidhya.com/blog/2017/09/common-machine-learning-algorithms/“简介”从广义上讲,机器学习算法有三种类型:监督学习该算法是由一个目标/结果变量(也成为因变量)组成,该变量可以从一组给定的预测...阅读... 阅 读 全 部 >
2022
07-06
07-06
数据开发常用的几种数据预处理和数据整理方法
翻译|谢旭审校|张卫滨本文比较了用于数据准备的几种方法,它们分别是提取-变换-加载批处理(ETL)、流式获取和数据整理。本文还讨论了数据准备如何与可视化分析相关联,以及不同用户角色(如数据科学家或业务分析人员)应如何共同构建分析模型的最佳实践。要点在常见的机器学习/深度学习项目里,数据准备占去整个分析管道的60%到80%。市场上有...阅读全文>>... 阅 读 全 部 >
2022
07-05
07-05
hisat2比对率批量统计的方法
grep 'Overall alignment rate: ' *.log |sed 's/Overall alignment rate: //'|sed 's/.log://'可以重定向阅读全文>>... 阅 读 全 部 >
2022
07-04
07-04
linux中文件名带?号的解决方案
windows中写了一个shell脚本批量mv改名,导致文件名结尾出现?ls -b 显现原形rename方法失败循环+mv方法可用代码如下:for i in *.log?;doi=${i%.log?}echo $imv ${i}.log? ${i}.logdone成功!阅读全文>>... 阅 读 全 部 >
2022
07-03
07-03
实用帖-手把手教你如何上传GEO数据库
还在为不知如何上传GEO数据库而发愁吗?还在为不愿意看繁琐的英文帮助而不知所措吗?一篇帖子教你如何上传GEO数据库,建议收藏,再也不用愁“书到用时方恨少”了。1、创建账号如果要上传GEO数据库,首先要创建NCBI帐号, 网址:https://www.ncbi.nlm.nih.gov/geo/submitter/登录成功后,回到GEO的主页,点击 Submissi...阅读全文>>... 阅 读 全 部 >
2022
07-03
07-03
如何0编程操作FASTA和FASTQ
现在搞科研,动不动就要接触高通量测序,想要来篇高分文章,没有高通量感觉都不太好意思,所以如果你还不知道什么是FASTQ和FASTA,那就太OUT了,其实他们在我们用的最多的PUBmed里随处可见:FASTQ是基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式。其序列以及质量信息都是使用一个ASCII字符标示。FASTQ格式中,每个序列通常有四行:第一行,序列标识以及相关的描述信息... 阅 读 全 部 >