新書推薦:
《
药食同源中药鉴别图典
》
售價:NT$
305.0
《
设计中的比例密码:建筑与室内设计
》
售價:NT$
398.0
《
冯友兰和青年谈心系列:看似平淡的坚持
》
售價:NT$
254.0
《
舍不得星星:全2册
》
售價:NT$
356.0
《
汉字理论与汉字阐释概要 《说解汉字一百五十讲》作者李守奎新作
》
售價:NT$
347.0
《
汗青堂丛书144·决战地中海
》
售價:NT$
765.0
《
逝去的武林(十周年纪念版 武学宗师 口述亲历 李仲轩亲历一九三零年代武人言行录)
》
售價:NT$
250.0
《
唐代冠服图志(百余幅手绘插画 图解唐代各类冠服 涵盖帝后 群臣 女官 士庶 军卫等 展现唐代社会风貌)
》
售價:NT$
398.0
|
編輯推薦: |
人们已经可以对大量的数据进行不同的分析,并未不同的行业运营提供广泛而有用的见解,但目前存在的问题是缺乏针对不同目标的数据分析的支持、工具和技术。R是一种统计和分析语言,它的出现拯救了我们!
|
內容簡介: |
这本书主要面向计算机科学和工程专业的本科生。同时,这本书也可供IT专业数据分析师、企业决策人员和业务分析人员参考。 本书由Acharya编著,介绍了R语言作为非稳态数据分析和可视化工具的强大功能,并向学习者介绍了几种数据挖掘算法和可视化方法。
|
關於作者: |
Seema Acharya是Infosys有限公司教育、培训和评估部的高级校长。她是一位技术传道者、学习战略家,也是一位拥有超过15年的信息技术行业学习教育服务经验的作者。她在全球范围内设计和实施了几个大规模的能力发展项目,包括组织能力需求分析、概念化、设计、开发和部署能力发展项目。她的兴趣和专长主要包括商业智能和大数据,以及分析技术,如数据仓库、数据挖掘、数据分析、文本挖掘和数据可视化
|
目錄:
|
第1章R概述\\1
1.1概述1
1.1.1R是什么1
1.1.2为什么是R1
1.1.3R相对于其他编程语言的优势3
1.2下载并安装R4
1.2.1下载R4
1.2.2安装R6
1.2.3R的主要文件类型7
1.3集成开发环境和文本编辑器8
1.3.1R Studio8
1.3.2具有StatET插件的Eclipse9
1.4R中软件包的处理10
1.4.1R软件包的安装11
1.4.2准备开始的一些函数12
本章小结17
关键术语18
巩固练习18
单项选择题参考答案19
第2章开始使用R\\20
2.1概述20
2.2处理目录20
2.2.1getwd命令20
2.2.2setwd命令21
2.2.3dir函数21
2.3R中的数据类型23
2.3.1强制类型转换26
2.3.2引入变量和ls函数26
2.4数据探索的一些命令27
2.4.1加载内部数据集27
本章小结38
关键术语38
实战练习38
大数据分析基于R语言目录
第3章在R中加载及处理数据\\40
3.1概述40
3.2分析数据处理的挑战40
3.2.1数据格式41
3.2.2数据质量41
3.2.3项目范围41
3.2.4利益方期望的输出结果的管理41
3.3表达式、变量和函数42
3.3.1表达式42
3.3.2逻辑值42
3.3.3日期43
3.3.4变量45
3.3.5函数45
3.3.6处理数据中的文本48
3.4R中缺失值的处理50
3.5利用as操作符改变数据的结构51
3.6向量53
3.6.1顺序向量54
3.6.2rep函数54
3.6.3向量访问55
3.6.4向量名56
3.6.5向量的算术运算57
3.6.6向量循环58
3.7矩阵60
3.7.1矩阵访问61
3.8因子65
3.8.1创建因子65
3.9列表67
3.9.1列表标签和值68
3.9.2从列表中添加和删除元素69
3.9.3列表的大小70
3.10一些常见的分析任务72
3.10.1探索数据集72
3.10.2数据集的条件操作72
3.10.3合并数据75
3.11变量的聚合和分组处理76
3.11.1aggregate函数76
3.11.2tapply函数76
3.12使用R进行简单分析78
3.12.1输入78
3.12.2描述数据结构78
3.12.3描述变量结构79
3.12.4输出82
3.13读取数据的方法83
3.13.1CSV和电子表格83
3.13.2从包中读取数据86
3.13.3从WebAPI中读取数据86
3.13.4读取一个JSONJavaScript Object Notation文档88
3.13.5读取XML文件89
3.14数据输入的R GUI的比较92
3.15使用R连接数据库及商务智能系统94
3.15.1RODBC95
3.15.2使用MySQL和R96
3.15.3使用PostgreSQL和R96
3.15.4使用SQLite和R97
3.15.5使用JasperDB和R97
3.15.6使用Pentaho和R98
3.16案例研究: 日志分析99
本章小结101
关键术语103
巩固练习103
单项选择题参考答案106
第4章在R中探索数据\\107
4.1概述107
4.2数据框107
4.2.1数据框访问108
4.2.2数据框排序110
4.3用于理解数据框中数据的R函数111
4.3.1dim函数111
4.3.2str函数111
4.3.3summary函数112
4.3.4names函数112
4.3.5head函数112
4.3.6tail函数113
4.3.7edit函数113
4.4加载数据框114
4.4.1从CSV文件中读取数据114
4.4.2获取数据框子集115
4.4.3从TSV文件中读取数据115
4.4.4从表格读取数据116
4.4.5合并数据框117
4.5探索数据117
4.6数据汇总118
4.7查找缺失值122
4.8无效值和异常值124
4.9描述性统计126
4.9.1数据全距126
4.9.2频数126
4.9.3均值和中值127
4.9.4标准差131
4.9.5众数132
4.10利用可视化发现数据中的问题134
4.10.1对单变量的分布进行可视化检查135
4.10.2直方图136
4.10.3密度图138
4.10.4柱状图140
本章小结144
关键术语145
巩固练习145
单项选择题参考答案147
第5章线性回归使用R\\148
5.1概述148
5.2模型拟合148
5.3线性回归149
5.3.1R中的lm函数149
5.4线性回归的假设161
5.5验证线性假设162
5.5.1使用散点图162
5.5.2使用残差与拟合图162
5.5.3使用正态QQ图162
5.5.4使用位置尺度图163
5.5.5使用残差与杠杆图164
案例研究: 推荐引擎169
本章小结170
关键术语171
巩固练习171
实战练习172
单项选择题参考答案172
第6章逻辑回归\\173
6.1概述173
6.2什么是回归174
6.2.1为什么要使用逻辑回归175
6.2.2为什么不能使用线性回归176
6.2.3逻辑回归的假设176
6.3广义线性模型概述177
6.4什么是逻辑回归179
6.4.1逻辑回归的使用179
6.4.2二项逻辑回归179
6.4.3Logistic函数179
6.4.4Logit函数180
6.4.5似然函数181
6.4.6极大似然估计183
6.5二元逻辑回归185
6.5.1二元逻辑回归概述185
6.5.2具有单分类预测变量的二元逻辑回归186
6.5.3三维列联表和k维列联表的二元逻辑回归191
6.5.4具有连续协变量的二元逻辑回归191
6.6诊断逻辑回归195
6.6.1残差195
6.6.2拟合性能测试196
6.6.3受试者工作特征曲线196
6.7多元逻辑回归模型197
案例研究: 受众顾客洞察分析204
本章小结206
关键术语207
巩固练习208
单项选择题参考答案210
第7章决策树\\211
7.1概述211
7.2什么是决策树211
7.3决策树在R中的表示216
7.3.1使用party包进行表示216
7.3.2使用rpart包进行表示226
7.4决策树学习中的问题解决方案228
7.4.1由属性值对表示的实例228
7.4.2目标函数具有离散输出值229
7.4.3析取描述229
7.4.4训练数据可能包含错误或缺失属性值229
7.5基本决策树学习算法230
7.5.1ID3算法231
7.5.2哪个属性是最好的分类器232
7.6度量特征233
7.6.1熵度量同质性233
7.6.2信息增益度量熵的期望约简234
7.7决策树学习中的假设空间搜索236
7.8决策树学习中的归纳偏差237
7.8.1优选偏差与限定偏差237
7.9为什么首选短假设238
7.9.1选择短假设的原因238
7.9.2争论的问题238
7.10决策树学习中的问题238
7.10.1过拟合238
7.10.2合并连续值属性241
7.10.3选择属性的其他方法241
7.10.4处理具有缺失属性值的训练样本242
7.10.5处理具有不同成本的属性242
案例研究: 帮助零售商预测店内客流243
本章小结244
关键术语245
巩固练习246
实战练习247
单项选择题参考答案248
第8章R中的时间序列\\249
8.1概述249
8.2时间序列数据250
8.2.1数据可视化的基本R函数250
8.2.2用于数据操作的基本R函数259
8.2.3时间序列线性滤波267
8.3读取时间序列数据269
8.3.1scan函数269
8.3.2ts函数269
8.4绘制时间序列数据271
8.5分解时间序列数据272
8.5.1分解非季节性数据272
8.5.2分解季节性数据274
8.5.3季节性调整277
8.5.4回归分析278
8.6使用指数平滑进行预测279
8.6.1简单指数平滑279
8.6.2Holts指数平滑279
8.6.3HoltWinters指数平滑280
8.7ARIMA模型281
8.7.1差分时间序列282
8.7.2选择一个候选ARIMA模型282
8.7.3使用ARIMA模型进行预测284
8.7.4自相关性和偏自相关性分析284
8.7.5诊断检验285
实践任务286
案例研究: 保险欺诈检测292
本章小结293
关键术语295
巩固练习295
单项选择题参考答案299
第9章聚类\\300
9.1概述300
9.2什么是聚类300
9.3聚类中的基本概念301
9.3.1点、空间和距离302
9.3.2聚类策略305
9.3.3维数灾难306
9.3.4向量之间的夹角307
9.4分层聚类308
9.4.1欧氏空间中的分层聚类308
9.4.2分层聚类的效率312
9.4.3控制分层聚类的其他规则313
9.4.4非欧氏空间的分层聚类314
9.5kmeans算法314
9.5.1kmeans基本原理314
9.5.2初始化kmeans集群319
9.5.3选择k的正确值319
9.5.4Bradley、Fayyad和Reina算法319
9.5.5使用BFR算法处理数据320
9.6CURE算法321
9.6.1CURE中的初始化321
9.6.2实现CURE算法321
9.7非欧氏空间中的聚类322
9.7.1在GRGPF算法中表示集群323
9.7.2初始化聚类树323
9.7.3在GRGPF算法中增加点323
9.7.4拆分和合并集群324
9.8流和并行数据的聚类325
9.8.1流计算模型325
9.8.2流聚类算法326
9.8.3并行环境中的聚类328
案例研究: 个性化产品推荐329
本章小结330
关键术语331
巩固练习332
实战练习333
单项选择题参考答案339
第10章关联规则\\340
10.1概述340
10.2频繁项集341
10.2.1关联规则341
10.2.2规则评估度量标准342
10.2.3蛮力法344
10.2.4两步法344
10.2.5Apiori算法346
10.3数据结构概述350
10.3.1表示项集的集合351
10.3.2事务数据354
10.3.3关联: 项集和规则项356
10.4挖掘算法接口358
10.4.1apriori函数358
10.4.2eclat函数371
10.5辅助函数372
10.5.1计算项集的支持度372
10.5.2规则推导372
10.6事务抽样374
10.7生成人工事务数据375
10.7.1子项集、超项集、最大项集和闭项集375
10.8兴趣度的其他度量378
10.9基于距离聚类事务和关联379
案例研究: 使用户生成的内容变得有价值381
本章小结382
关键术语383
巩固练习384
实战练习386
单项选择题参考答案393
第11章文本挖掘\\394
11.1概述394
11.2文本挖掘的定义395
11.2.1文档集395
11.2.2文档395
11.2.3文档特征395
11.2.4领域和背景知识396
11.3文本挖掘中的一些挑战396
11.4文本挖掘和数据挖掘396
11.5R中的文本挖掘396
11.6文本挖掘的总体架构406
11.6.1预处理任务406
11.6.2核心挖掘操作407
11.6.3表示层成分与浏览功能407
11.6.4精简技术407
11.7R中文档的预处理407
11.8核心文本挖掘操作409
11.8.1分布比例410
11.8.2频繁概念集410
11.8.3近频繁概念集410
11.8.4关联411
11.9文本挖掘的背景知识413
11.10文本挖掘查询语言413
11.11挖掘频繁模式、关联和相关性的基本概念和方法413
11.11.1基本概念414
11.11.2购物篮分析414
11.11.3关联规则415
11.12频繁项集、闭项集和关联规则416
11.12.1频繁项集416
11.12.2闭项集416
11.12.3关联规则挖掘416
11.13频繁项集的挖掘方法417
11.13.1Apriori算法: 发现频繁项集417
11.13.2从频繁项集生成关联规则419
11.13.3提高Apriori算法的效率421
11.13.4挖掘频繁项集的模式生长方法422
11.13.5使用垂直数据格式挖掘频繁项集422
11.13.6挖掘闭模式和最大模式423
11.14模式评估方法424
11.14.1强规则并不一定有趣425
11.14.2从关联分析到相关性分析425
11.14.3模式评估度量的比较426
11.15情感分析427
11.15.1情感分析的目的427
11.15.2情感分析要用到的知识427
11.15.3情感分析的输入428
11.15.4情感分析的工作方式428
案例研究: 客户群体的信用卡消费可以通过商业需求进行识别428
本章小结429
关键术语431
巩固练习432
实战练习434
单项选择题参考答案436
第12章使用R实现并行计算\\437
12.1概述437
12.2R工具库概述438
12.2.1在R中使用高性能计算的动机438
12.3HPC中使用R的时机439
12.3.1单节点中的并行计算440
12.3.2多节点的并行化支持440
12.4R对并行化的支持443
12.4.1R中对单节点并行化执行的支持443
12.4.2使用消息传递接口对多个节点上的并行执行提供支持450
12.4.3使用其他分布式系统的包454
12.5R中并行包的比较461
案例研究: 销售预测462
本章小节464
关键术语465
巩固练习466
实战练习468
单项选择题参考答案471
|
內容試閱:
|
本书目标
我们正处于激动人心的时代!除了面向过程和面向对象的编程语言,统计计算和大规模数据分析任务需要一种新的计算机语言,这类语言的主要目标是支持各种类型的统计分析和数据分析任务,而不是开发新的软件。目前,人们已经可以对大量的数据进行不同的分析,并为不同的行业运营提供广泛而有效的见解。然而,目前存在的问题是缺乏针对不同目的的数据分析的支持、工具和技术。R是一种开源的统计和分析语言,它的出现拯救了我们。
读者对象
本书的读者对象包括各级IT专业人员,确定IT发展战略的主管人员、系统管理员、数据分析师和负责推动战略举措的决策者等。本书将帮助读者从一个新手变成一名专业的数据分析师。
本书也将成为商业用户、管理学毕业生和商业分析师感兴趣的读物。
本书结构
本书共12章,每章的内容安排如下。
第1章。介绍R及R软件包的安装,使读者通过find.package、install.packages、library、vignette和packageDescription函数利用任意R包进行工作。
第2章。利用dir和list函数分析目录下的内容,并利用str、summary、ncol、nrow、head、tail和edit等函数轻松地分析数据集。
第3章。本章帮助读者熟悉从csv文件、电子表格、网络、JASON文档、XML等导入数据的过程,熟悉MySQL、PostgreSQL、SQLite和JasperDB等数据库在R中的使用方法。
第4章。主要关于数据框的操作,帮助读者将不同类型的数据存入数据框,并从数据框中提取数据,执行dim、nrow、ncol、str、summary、 names、head、tail和edit等R函数,以理解数据框中的数据;帮助读者实现对数据的描述性统计如频数、均值、中值、众数、标准差等。
第5章。讨论常用于基于预测变量预测结果变量值目标或响应值的回归分析。
第6章。介绍逻辑回归、二项逻辑回归模型和多元逻辑回归模型。
第7章。关于分类问题,帮助读者引入一个决策树以执行分类,并利用创建的决策树模型预测结果变量的值。
第8章。介绍探索时间序列数据,帮助读者使用scan和ts函数读取时间序列数据,对其应用线性滤波,并对时间序列数据进行分解;通过合适的绘制图对时间序列数据进行可视化。
第9章。帮助读者利用hclust函数实现在R中的聚类,讨论R中的kmeans算法。
第10章。帮助读者在给出特定事务和项集的情况下确定关联规则,同时使用支持度、置信度和提升度对关联规则进行评价;讨论在R中实现关联规则的挖掘,创建给定项集的二元关联矩阵,创建项矩阵,确定项频率,使用apriori函数和eclat函数。
第11章。帮助读者在R中实现对文本的挖掘。
第12章。使用doParallel包和foreach包在R中进行并行计算。
在线学习中心
本书提供附加的内容支持,这些内容可以通过扫描下方二维码获得下载链接,该链接包含以下内容。
教师资源:
PPT;
习题解答手册。
学生资源:
重要的参考资料链接;
问题库;
进一步阅读的建议。
大数据分析基于R语言前言如何使本书发挥最大作用
严格遵循以下规则,可以很容易地通过本书获得最大的收益。
仔细阅读,根据示例中的指令说明亲自动手实践,不要跳过任何示例,如有需要,则再重复一遍,或者直到概念被牢牢记住。
探索所有R函数和命令的各种选项。
完成各章最后的巩固练习。
收集公开的数据集,并对其应用书中的数据挖掘算法和分析技术。
下一步该做什么
本书尽力解析R作为统计数据分析和可视化工具的能力,并为读者介绍几种数据挖掘算法和图表表示可视化方法。建议读者从头读到尾,当然也可以直接阅读最感兴趣的部分。
给教师的话
本书在确定各章的顺序时,也考虑到了每章中各个主题的顺序,这将有助于教师和学生从这本书的目录中划分出教学大纲。完整的目录可以作为一个学期的教学大纲;如果已有关于数据分析、数据科学或分析及可视化的教学大纲,也可以将本书的一些章节添加进去,从而使其更完整。
本书已确保讨论的每一个工具和组件都有足够的实践内容,使教师能够更高效地教学,并为学生提供充足的实战练习。
Seema Acharya
|
|