r语言的MASS包干什么的_R开发:常用R语言包介绍
在机器学习领域中,R与Python之间的差异较大。具体表现为,Python在机器学习算法上的集成度较高,例如像scikit-learn这样的库集成了众多算法,使用起来相对较为繁琐;相比之下,R语言通常需要单独加载每个所需的库,对于刚转到R语言的用户来说并不太友好,抽空整理了工作中常用的R包如下:
常用检验函数:
基本上分布中常见的都罗列了:
常用作图函数包:
ggplot2:万能,基本上excel能画的图它都能画
rattle:fancyRpartPlot函数,决策树画图函数
基础功能模块:包括barplot(条形图)、pie(饼图)、dotchart(分段图)、hist(直方图)、densityplot(密度分布图)、boxplot(箱线图)以及contour(等值线图)等其他相关函数
正态检验:qqplot、qqline、qqnorm
连续分类回归模型:
stats包中的lm函数用于建立线性模型拟合;通过glm函数可以执行广义线性模型拟合;nls函数则用于非线性模型拟合;knn方法基于距离邻居的数据点进行分类或预测
rpart包 rpart函数,基于CART算法的分类回归树模型
randomForest包 randomForest函数,基于rpart算法的集成算法
e1071包 svm函数,支持向量机算法
kernlab包 ksvm函数,基于核函数的支持向量机
nnet包 nnet函数,单隐藏层的神经网络算法
neuralnet包 neuralnet函数,多隐藏层多节点的神经网络算法
RSNNS软件包中的MLP算法是一种基于多层感知器的神经网络模型;RBF算法是一种基于径向基函数的神经网络模型
离散分类回归模型:
stats包 glm函数,实现Logistic回归,选择logit连接函数
kknn包 kknn函数,加权的k最近邻算法
rpart包 rpart函数,基于CART算法的分类回归树模型
adabag 包含 bagging 方法,在 rpart 算法的基础上进行集成;采用 boosting 方法,在 rpart 算法的基础上进行集成。
party包ctree函数,条件分类树算法
RWeka包中的OneR函数用于实现一维的学习规则算法;JPip包中的学习规则算法适用于多维数据集;而J48函数则基于经典的C4.5决策树模型进行分类任务
C50包C5.0函数,基于C5.0算法的决策树
e1071包naiveBayes函数,贝叶斯分类器算法
klaR包NaiveBayes函数,贝叶斯分类器算分
MASS包lda函数,线性判别分析;qda函数,二次判别分析
聚类:Nbclust包Nbclust函数可以确定应该聚为几类
stats包kmeans函数,k均值聚类算法;hclust函数,层次聚类算法
cluster包pam函数,k中心点聚类算法
fpc包中的dbscan函数是一种基于密度的聚类算法;kmeansruns函数相比kmeans函数而言更加稳定,并且能够预估分为多少类别;pamk函数相比pam函数的优势在于能够提供一个可靠的聚类方案
mclust包Mclust函数,期望最大(EM)算法
关联规则:arules包apriori函数
Apriori关联规则算法
recommenderlab协调过滤
DRM:重复关联
ECLAT算法: 采用等价类,RST深度搜索和集合的交集: eclat
降维算法:
psych包prcomp函数、factanal函数
时序分析:
ts时序构建函数
timsac包时序分析
holtwinter包时序分析
decomp、tsr、stl成分分解
zoo 时间序列数据的预处理
统计及预处理:
常用的包 Base R, nlme
aov, anova 方差分析
density 密度分析
t.test, prop.test, anova, aov:假设检验
rootSolve非线性求根
reshape2数据预处理
plyr及dplyr数据预处理大杀器
最后剩下常用的就是读入和写出了:
RODBC 连接ODBC数据库接口
jsonlite 读写json文件
yaml 读写yaml文件
rmakdown写文档
knitr自动文档生成
常见业务中应用广泛的就是这些了。此外,在R语言中存在着众多冷门的工具包,并且它们同样具有实用价值。
