2022 07-08 实习僧招聘网爬虫数据可视化 我本来对实习僧网站是没什么好感的,因为之前自己在实习僧上投的实习简历几乎全部都石沉大海了(一个文科生偏要去投数据分析岗不碰壁才怪~_~)!然鹅看到最近知乎爬虫圈儿里的两大趋势:爬美图;爬招聘网站。后来大致观察了下,几乎各类大型招聘文章都被别人爬过了,自己再去写免不了模仿之嫌,而且大神们都是用Python去爬的(Python我刚学会装包和导数据),自己也学不来。现在只能选一个还没怎么被盯上的招聘网站... 阅 读 全 部 >
2022 07-06 数据开发常用的几种数据预处理和数据整理方法 翻译|谢旭审校|张卫滨本文比较了用于数据准备的几种方法,它们分别是提取-变换-加载批处理(ETL)、流式获取和数据整理。本文还讨论了数据准备如何与可视化分析相关联,以及不同用户角色(如数据科学家或业务分析人员)应如何共同构建分析模型的最佳实践。要点在常见的机器学习/深度学习项目里,数据准备占去整个分析管道的60%到80%。市场上有...阅读全文>>... 阅 读 全 部 >
2022 07-05 hisat2比对率批量统计的方法 grep 'Overall alignment rate: ' *.log |sed 's/Overall alignment rate: //'|sed 's/.log://'可以重定向阅读全文>>... 阅 读 全 部 >
2022 07-03 实用帖-手把手教你如何上传GEO数据库 还在为不知如何上传GEO数据库而发愁吗?还在为不愿意看繁琐的英文帮助而不知所措吗?一篇帖子教你如何上传GEO数据库,建议收藏,再也不用愁“书到用时方恨少”了。1、创建账号如果要上传GEO数据库,首先要创建NCBI帐号, 网址:https://www.ncbi.nlm.nih.gov/geo/submitter/登录成功后,回到GEO的主页,点击 Submissi...阅读全文>>... 阅 读 全 部 >
2022 07-03 如何0编程操作FASTA和FASTQ 现在搞科研,动不动就要接触高通量测序,想要来篇高分文章,没有高通量感觉都不太好意思,所以如果你还不知道什么是FASTQ和FASTA,那就太OUT了,其实他们在我们用的最多的PUBmed里随处可见:FASTQ是基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式。其序列以及质量信息都是使用一个ASCII字符标示。FASTQ格式中,每个序列通常有四行:第一行,序列标识以及相关的描述信息... 阅 读 全 部 >
2022 06-29 手把手教你画GO 功能分类图 | 分析技能 GO介绍GO是Gene ontology的缩写,GO数据库分别从功能、参与的生物途径及细胞中的定位对基因产物进行标准化描述,即对基因产物进行注释,通过GO富集分析可以了解差异基因富集在哪些生物学功能、途径或者细胞定位,是高通量测序数据解读中比较常用的一种数据分析方法。下面跟着小编一起来来学习如何用excel画GO 功能分类图吧~一.图片结构说明观察上图,发现横坐标有分子类和父类,其次是纵坐标为..... 阅 读 全 部 >
2022 06-27 几种常见的数据标准化的方法总结! 一、标准化在进行数据分析时,数据具有单位是非常常见的,比如说GDP可以以亿作为单元,也可以以百万作为单位,那么此时就会出现由于单位问题导致的数字大小问题;这种情况对于分析可能产生影响,因此需要对其进行处理,但是处理的前提是不能失去数字的相对意义,即之前数字越大代表GDP越高,处理后的数据也不能失去这个特性。也或者计算距离,数字1和2的距离可以直接相减得到距离值为1; 另外一组数...阅读全文>... 阅 读 全 部 >
2022 06-26 3分钟搞定GO/KEGG富集分析 在进行差异基因表达分析时,得到显著差异基因后,接下来就需要分析这些基因参与了哪些功能,常见的就是GO功能注释和KEGG通路富集分析,今天为大家介绍在线分析工具的使用——DAVID与KOBAS 3.0。DAVID是一个生物信息数据库,其整合了生物学数据和分析工具,为大规模的基因或蛋白列表提供系统综合的生物功能注释信息,帮助用户从中提取生物学信息。目前DAVID数据库主要用于差异基因的功能和通路...... 阅 读 全 部 >
2022 06-23 R语言爬虫系列5|正则表达式与字符串处理函数 作者:鲁伟,热爱数据,坚信数据技术和代码改变世界。R语言和Python的忠实拥趸,为成为一名未来的数据科学家而奋斗终生。个人公众号:数据科学家养成记 (微信ID:louwill12)第三篇戳:R语言爬虫系列3|HTTP协议无论是R中的RCurl组件还是Python的BeautifulSoup库,对网页HTML完成下载解析之后我们从这些看似杂乱无章的文本中拿到我们感兴趣的数据。之前在系列2的时候小编... 阅 读 全 部 >
2022 06-23 R语言实战—简单数据分析 作者:Carson 数据分析师,R语言中文社区专栏作者。知乎专栏:https://zhuanlan.zhihu.com/carson-0814数据源:朝阳医院2016年销售数据分析指标:1、月均消费次数;2、月均消费金额;3、客单价;4、消费趋势打开excel数据源,数据的基本字段如下:一、将excel数据源导入R中二、对数据进行预处理“数据是一件麻烦的事——一件非常非常麻烦的事。”,数据分析工作... 阅 读 全 部 >