2022 06-27 几种常见的数据标准化的方法总结! 一、标准化在进行数据分析时,数据具有单位是非常常见的,比如说GDP可以以亿作为单元,也可以以百万作为单位,那么此时就会出现由于单位问题导致的数字大小问题;这种情况对于分析可能产生影响,因此需要对其进行处理,但是处理的前提是不能失去数字的相对意义,即之前数字越大代表GDP越高,处理后的数据也不能失去这个特性。也或者计算距离,数字1和2的距离可以直接相减得到距离值为1; 另外一组数...阅读全文>... 阅 读 全 部 >
2022 06-27 从另一个视角看 R 语言的方言 Tidyverse 从另一个视角看 R 语言的“方言” Tidyverse,以及 RStudio 对 Tidyverse 的提倡。作者简介作者 Norm Matloff 为 UC Davis 计算机科学教授(曾任 UCD 统计学教授)。中文翻译及投稿至 COS 经过作者 同意 [1] 。文中的“我”为作者视角,但译文中存在的任何不妥之处当然很可能是由译者引入的,还望读者不吝 赐教 [2] 。...阅读全文>&g... 阅 读 全 部 >
2022 06-27 R语言自然语言处理:关键词提取与文本摘要(TextRank) 作者:黄天元,复旦大学博士在读,目前研究涉及文本挖掘、社交网络分析和机器学习等。希望与大家分享学习经验,推广并加深R语言在业界的应用。邮箱:[email protected]关于提取关键词的方法,除了TF-IDF算法,比较有名的还有TextRank算法。它是基于PageRank衍生出来的自然语言处理算法,是一种基于图论的排序算法,以文本的相似度作为边的权重,迭代计算每个文本的TextRa... 阅 读 全 部 >
2022 06-26 3分钟搞定GO/KEGG富集分析 在进行差异基因表达分析时,得到显著差异基因后,接下来就需要分析这些基因参与了哪些功能,常见的就是GO功能注释和KEGG通路富集分析,今天为大家介绍在线分析工具的使用——DAVID与KOBAS 3.0。DAVID是一个生物信息数据库,其整合了生物学数据和分析工具,为大规模的基因或蛋白列表提供系统综合的生物功能注释信息,帮助用户从中提取生物学信息。目前DAVID数据库主要用于差异基因的功能和通路...... 阅 读 全 部 >
2022 06-25 高逼格生信绘图神器 —ClueGO GO和KEGG分析是最常用的生信分析方法,在SCI论文中也经常见到,那么你能想到的GO和KEGG分析结果的展示方法有哪些呢?条形图:饼状图:表格:相比于上面这些,这样的网络图展示起来是不是立马提升了几个档次:首先讲一下如何获取这一利器,ClueGO和CluePedia是Cytoscape的APP,点开Cytoscape的Apps菜单,找到这两个APP把它们下载安装了。然后你就能在Apps...阅读... 阅 读 全 部 >
2022 06-23 统计学-三大相关性系数 | 生物统计学基础系列课 什么是生物统计学生物统计学是一种很有用的工具,正确使用这一工具可以使科学研究更加有效,使科学研究可以更加高效的开展。因此,它是每位生物科学工作者必须掌握的基础知识。联川生物近日对生物统计学进行了系统式的学习,所用的教材——《生物统计学基础(原书第5版)》是一本非常有特色的书,与其他同类书比较,其有以下几类优点:①教材内容通俗易懂但又非常严谨、细致、深入而又全面。书中的多数...阅读全文>&g... 阅 读 全 部 >
2022 06-23 R语言也能玩ps?magick包你值得拥有 作者:鲁伟,热爱数据,坚信数据技术和代码改变世界。R语言和Python的忠实拥趸,为成为一名未来的数据科学家而奋斗终生。个人公众号:数据科学家养成记 (微信ID:louwill12)今天要给大家介绍的是2017年的一款新包——magick包。可能大家看到推文题目也都知道了,这是一款图片与图像处理的扩展包,以后ps能做的R语言一定程度上也可以做啦。毕竟从大数据的角度来讲,图片图像数据也是数据嘛。话不... 阅 读 全 部 >
2022 06-23 【R语言】教你使用常用的字符串处理方法 在字符串处理中经常会使用到正则表达式,例如从HTML源码中或事件日志中获取目标数据,一般可以通过正则表达式完成任务。在我看来,所谓正则表达式就是根据字符串中的规律书写的一种表达式,关键点是发现规律。根据我的工作应用场景,字符串处理中最为常见的四种手段有“拆、替、抽、取”,具体来讲就是:拆:将字符串按照某个分隔符切割开来例如,邮箱“[email protected]”,我想把邮箱的地...阅读全文&... 阅 读 全 部 >
2022 06-23 R语言实战—简单数据分析 作者:Carson 数据分析师,R语言中文社区专栏作者。知乎专栏:https://zhuanlan.zhihu.com/carson-0814数据源:朝阳医院2016年销售数据分析指标:1、月均消费次数;2、月均消费金额;3、客单价;4、消费趋势打开excel数据源,数据的基本字段如下:一、将excel数据源导入R中二、对数据进行预处理“数据是一件麻烦的事——一件非常非常麻烦的事。”,数据分析工作... 阅 读 全 部 >
2022 06-23 10个令人相见恨晚的R语言包 作者:yhat大约3年前我开始使用R,起初进展很慢,与我习惯的语言相比,语法更加直观也比较简单,而且需要一段时间才能习惯于细微的差别。我还不清楚语言的力量与社区和各种包的密切关系。和其他语言(比如Python和Java)相比,R可以更模糊和麻烦。好消息是,有大量的包可以在R基础库上提供简单和熟悉的界面。这篇文章是我喜欢和每天使用的10个包,并且我希望自己能早些知道他们。...阅读全文>>... 阅 读 全 部 >