R语言plyr包和dplyr包学习
发布时间
阅读量:
阅读量
在R语言中,apply族函数是一类极具特色的函数家族,在数据分析的不同环节中都展现出独特的优势。本文对这些功能进行了简要介绍。从基础到高级的多种功能构成了这个家族的核心内容。这些工具通过将数据进行分割、计算并整合来实现各种分析需求,在数据准备阶段能够按照特定标准对数据进行分组处理并生成相应的统计信息;而在建模阶段则能够为不同子集分别建立模型并比较其效果。与Google提出的MapReduce策略有相似之处,在这种思路下数据被分割后会进行集中运算并最终完成整合工作。如果你已经熟悉了这一家族的功能模块,则将其转化为并行运算将是自然而然的事情。而plyr包则可被视为对这一家族功能模块的一个扩展工具,在这里我们可以通过更加灵活的方式运用这些方法并且提升分析效率
plyr包的主要函数采用**ply模式设计,在其名称中通常包含前缀字符以标识功能特性。具体而言,在函数名称中可以选择的前缀包括'd'(数据框)、'l'(列表)以及'a'(数组)。这些前缀中的每个字符都对应特定的功能特性:'d'指代数据框格式,'l'代表列表结构,'a'对应数组类型。需要注意的是,'_'这一特殊字符仅在允许选项中出现时才被使用,它通常用于标识可选参数或无返回值的情况。此外,每个函数名称中的第一个字符决定了输入参数所采用的数据类型,而第二个字符则代表输出的数据类型。例如,ddply这一特定函数表明当输入为一个数据框时,其处理后的输出结果也将保持为一个数据框结构(参考文献:2)。
以下是应用
安装dplyr库
ref:
1:http://bbs.pinggu.org/thread-2250439-1-1.html
2.http://www.dataguru.cn/thread-311303-1-1.html
3.
全部评论 (0)
还没有任何评论哟~
