2022 08-21 用R语言把数据玩出花样 R语言作为统计学一门语言,一直在小众领域闪耀着光芒。直到大数据的爆发,R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入,R语言的社区在迅速扩大成长。现在已不仅仅是统计领域,教育,银行,电商,互联网…都在使用R语言。要成为有理想的极客,我们不能停留在语法上,要掌握牢固的数学,概率,统计知识,同时还要有创新精神,把R语言发挥到各个领域。让我们一起动起来吧,开始R的极客...阅... 阅 读 全 部 >
2022 07-08 dplyr包-行选择的方法 《R包学习》专栏·第3篇 文| R学习者2352字 | 6分钟阅读这是dplyr包系列第三篇文章。前两篇文章如下:前两篇文章是从 数据列的角度做选择和变换处理。这篇文章是从 数据行的角度,描写行选择的一系列操作与方法。数据的行,可以看作为 观察、样例、对象等。 数据的行选择,主要包括如下内容:1 基于比较运算的行选择2 基于字符匹配的行选择3 基于正则模式的行选择4 基于多条件的行选择5 跨越多列... 阅 读 全 部 >
2022 07-06 数据开发常用的几种数据预处理和数据整理方法 翻译|谢旭审校|张卫滨本文比较了用于数据准备的几种方法,它们分别是提取-变换-加载批处理(ETL)、流式获取和数据整理。本文还讨论了数据准备如何与可视化分析相关联,以及不同用户角色(如数据科学家或业务分析人员)应如何共同构建分析模型的最佳实践。要点在常见的机器学习/深度学习项目里,数据准备占去整个分析管道的60%到80%。市场上有...阅读全文>>... 阅 读 全 部 >
2022 06-23 R语言实战—简单数据分析 作者:Carson 数据分析师,R语言中文社区专栏作者。知乎专栏:https://zhuanlan.zhihu.com/carson-0814数据源:朝阳医院2016年销售数据分析指标:1、月均消费次数;2、月均消费金额;3、客单价;4、消费趋势打开excel数据源,数据的基本字段如下:一、将excel数据源导入R中二、对数据进行预处理“数据是一件麻烦的事——一件非常非常麻烦的事。”,数据分析工作... 阅 读 全 部 >
2022 06-04 30天学会R DAY10:缺失值识别及处理 缺失值是数据中普遍存在的现象,信息无法获取、遗漏、异常值都有可能造成数据的缺失。缺失值的存在会影响数据分析,导致结果存在偏差。R语言中,缺失值用NA和NaN表示,最常用的是用NA符号表示该数据遗失、不存在或异常。开始之前,我们先读入elder1、elder2这两个文件elder1<-read.csv("elder1.csv")elder2<-re...阅读全文>>... 阅 读 全 部 >
2022 06-03 R语言数据处理方法~小结 文章目录1. R自带函数2. reshape2数据重构3. dplyr4. tidyr5. 字符串处理1. R自带函数1.1 转置使用函数t()可对一个矩阵或数据框进行转置,对于数据框,行名将变成变量(列)名。数列array进行维度转换 aperm1.2 整合数据aggregate在R中使用一个或多个by变量和一个预先定义好的函数来折叠(collapse)数据。调用格式为:其中x是待折叠的数据对象... 阅 读 全 部 >
2022 05-28 使用dplyr进行数据操作(30个实例) 文章链接:https://www.listendata.com/2016/08/dplyr-tutorial.htmldplyr软件包是R中功能最强大,最受欢迎的软件包之一。该软件包由最受欢迎的R程序员HadleyWickham编写,他编写了许多有用的R软件包,如ggplot2,tidyr等。本文包括一些示例和如何使用使用dplyr软件包来清理和转换数据。这是一个关于数据操作和数据处理的完整教..... 阅 读 全 部 >
2022 04-23 基因芯片数据分析--芯片数据预处理 基因芯片(Gene chip)(又称DNA芯片、生物芯片)最初是80年代中期提出的。它是由大量DNA或寡核苷酸探针密集排列所形成的探针阵列,其工作的基本原理是通过碱基互补配对检测生物信息。即通过与一组已知序列的核酸探针杂交进行核酸序列测定的方法,在一块基片表面固定了序列已知的靶核苷酸的探针。当溶液中带有荧光标记的核酸序列TATGCAATCTAG,与基因芯片上对应位置的核酸探针产生互补匹配...阅读... 阅 读 全 部 >
2022 04-03 测序数据质控界的宠儿-Trimmomatic 一个优质的测序结果,除了倚仗技术娴熟的实验人员和稳定的测序仪器,更重要的是要有一款集能力和才华于一身的质控软件。高通量测序下机的原始数据rawreads中存在一些低质量数据、接头以及barcode序列等,为消除其对后续分析准确性产生的影响,在数据下机以后对原始数据进行质控处理就成了至关重要的环节。今天,小奥要给大家介绍的就是数据质控界的宠儿——Trimmomatic软件。Trimmo...阅读全文... 阅 读 全 部 >
2022 02-28 安利两款分子生物常用网站,轻松处理基因序列 一、序列处理在线工具包(The Sequence Manipulation Suite)序列处理在线工具包是DNA与蛋白序列分析与格式化在线工具的集合,是一款非常实用的序列比对分析网站。网站常用的功能包括:DNA/蛋白质序列过滤器,反序与补序工具,DNA/蛋白质序列分组工具,翻译和蛋白分子量等。 下面简单介绍一下常用功能:1DNA/蛋白质序列过滤器DNA/蛋白质序列过滤器用来从文本中移去非DNA字... 阅 读 全 部 >