新書推薦:
《
罗马政治观念中的自由
》
售價:NT$
230.0
《
中国王朝内争实录:宠位厮杀
》
售價:NT$
281.0
《
凡事发生皆有利于我(这是一本读了之后会让人运气变好的书”治愈无数读者的心理自助经典)
》
售價:NT$
203.0
《
未来特工局
》
售價:NT$
254.0
《
高术莫用(十周年纪念版 逝去的武林续篇 薛颠传世之作 武学尊师李仲轩家世 凸显京津地区一支世家的百年沉浮)
》
售價:NT$
250.0
《
英国简史(刘金源教授作品)
》
售價:NT$
449.0
《
便宜货:廉价商品与美国消费社会的形成
》
售價:NT$
352.0
《
读书是一辈子的事(2024年新版)
》
售價:NT$
352.0
編輯推薦:
本书*的特色就是实践性较强,在阐述大数据技术相关基础知识的同时,辅以大量实践内容及项目实例,培养了学生的学习兴趣,可极大提高学生的动手能力
內容簡介:
本书详细介绍 R 语言实际应用所需的基本知识,包括 R 语言的基本开发环境、核心概念和数据处理 等,并结合实际案例由潜入深,*后通过较大数据案例全面介绍 R 语言大数据的处理、分析与展示。 该书从零起步,从读者处理大数据业务场景出发,基于实际案例组织内容,对于大数据学习者,该 书覆盖了从零起步使用 R 语言对大数据分析所需要的全部核心内容。
關於作者:
方志军,男,教授,博导,上海交通大学工学博士,美国华盛顿大学访问学者。中国计算机学会中国人工智能学会IEEEACM高级会员,中国计算机学会多媒体技术专业委员会委员,中国人工智能学会智能服务专业委员会委员,中国管理科学与工程学会常务理事。现任上海工程技术大学电子电气工程学院院长,先后兼任江西省数字媒体重点实验室主任、江西省电子商务工程技术研究中心常务副主任、江西省公共安全视频技术研究中心常务副主任、江西数字智能公共安全产业技术创新战略联盟副理事长、上海长三角科技合作交流促进中心副理事长。
目錄 :
内 容 简 介 2
前 言 3
序 4
目 录 5
第1章 R语言基础简介 11
1.1 R语言概述 11
1.2 为何学习R语言 11
1.2.1 R语言特点 11
1.2.2 R在大数据中的优势 12
1.3 R语言主要应用领域 13
1.4 R语言开发环境搭建 14
1.4.1 Windows系统中安装R 14
1.4.2 Linux系统中安装R 14
1.4.3 RStudio工具安装与使用 15
本章习题 16
第2章 R语言语法基础 18
2.1 R语言数据类型 18
2.1.1 R的4种数据类型 18
2.1.2 字符型的高级技巧 20
2.1.3 NA和NULL 21
2.2 R语言数据结构 22
2.2.1 Array数组 22
2.2.2 Factor因子 23
2.2.3 List列表 25
2.2.4 DataFrame数据框 26
2.3 R语言程序结构 28
2.3.1 三种基本结构 28
2.3.2 for循环 28
2.3.4 while循环 30
2.3.5 repeat循环 31
2.4 R语言向量化计算 32
2.4.1 向量化计算的概念 32
2.4.2 冒号运算符 32
2.4.3 序列生成函数seq和rep 32
2.4.4 数组之间的运算规则 33
2.5 强大的apply函数族 34
2.5.1 apply 34
2.5.2 lapply 35
2.5.3 sapply 35
2.5.4 vapply 36
2.5.5 mapply 37
2.5.6 tapply 37
本章习题 38
第3章 R语言数据预处理 40
3.1 数据导入导出 40
3.1.1 R语言数据导入 40
3.1.2 导入函数参数匹配 47
3.1.3 R语言数据导出 48
3.2 R语言数据处理方法 49
3.2.1 重复值处理 50
3.2.2 缺失值处理 50
3.2.3 空格值处理 52
3.2.4 字段抽取 53
3.2.5 记录抽取 54
3.2.6 随机抽样 54
3.2.7 记录合并 55
3.2.8 字段匹配 57
3.2.9 生成新的字段 58
3.2.10 数据标准化 59
3.2.11 数据分组 60
3.2.12 日期格式处理 62
3.2.13 日期抽取 63
3.2.14 变量重命名 63
本章习题 64
第4章 R语言数据分析 66
4.1 基本统计分析 66
4.1.1 基本概念 66
4.1.2 基本统计的应用 66
4.2 对比分析 67
4.2.1 基本概念 67
4.2.2 对比分析的应用 68
4.3 分组分析 71
4.3.1 基本概念 71
4.3.2 分组分析的应用 72
4.4 分布分析 72
4.4.1 基本概念 72
4.4.2 分布分析的应用 73
4.5 交叉分析 75
4.5.1 基本概念 75
4.5.2 交叉分析的应用 75
4.6 结构分析 76
4.6.1 基本概念 76
4.6.2 结构分析的应用 76
4.7 相关分析 79
4.7.1 基本概念 79
4.7.2 相关分析的应用 80
4.8 简单线性回归分析 81
4.8.1 基本概念 81
4.8.2 简单线性回归分析的应用 82
4.9 多重线性回归分析 84
4.9.1 基本概念 84
4.9.2 多重线性回归分析的应用 85
4.10 RFM分析 87
4.10.1 基本概念 87
4.10.2 RFM分析的应用 87
本章习题 90
第5章 R语言数据可视化 92
5.1 R语言可视化概述 92
5.2 饼图 92
5.2.1 饼图的概念 92
5.2.2 饼图的使用 93
5.3 散点图 95
5.3.1 散点图的概念 95
5.3.2 散点图的使用 96
5.4 折线图 100
5.4.1 折线图的概念 100
5.4.2 折线图的使用 102
5.5 柱形图 107
5.5.1 柱形图的概念 107
5.5.2 柱形图的使用 107
5.6 直方图 112
5.6.1 直方图的概念 112
5.6.2 直方图的使用 113
5.7 箱线图 115
5.7.1 箱线图的概念 115
5.7.2 箱线图的使用 116
5.8 树图 118
5.8.1 树图的概念 118
5.8.2 树图的使用 118
5.9 地图 121
5.9.1 地图的概念 121
5.9.2 地图的使用 122
5.10 热力地图 125
5.10.1 热力地图的概念 125
5.10.2 热力地图的使用 126
本章习题 127
第6章 网页数据抓取 129
6.1 HTML数据抓取 129
6.1.1 查看HTML文件 129
6.1.2 解析hHTML文件内容 130
6.2 JSON数据抓取 131
6.2.1 查看JSON文件 131
6.2.2 获取JSON文件内容 133
6.3 使用Google开发者工具分析网页结构 134
6.3.1 Google开发者工具的功能介绍 134
6.3.2 利用Network标签抓取数 135
本章习题 136
第7章 R语言统计与建模 137
7.1 R语言常用概率分布和渐进性 137
7.1.1 伯努利分布 137
7.1.2 二项分布 138
7.1.3 正态分布 141
7.1.4 泊松分布 145
7.1.5 渐进性 147
7.2 R语言置信区间和假设检验 149
7.2.1 置信区间和假设检验的概念 149
7.2.2 置信区间和假设检验的应用 155
7.3 R语言一元线性回归建模 159
7.3.1 一元线性回归分析的基本概念 159
7.3.2 一元线性回归模型 160
7.3.3 一元残差分析 161
7.3.4 一元线性回归应用 161
7.4 R语言多元线性回归建模 168
7.4.1 多元线性回归模型的概念 168
7.4.2 多元线性回归模型的结构 168
7.4.3 单元残差分析 168
7.4.4 变量选择和逐步回归 170
7.4.5 多元线性回归应用 170
7.5 R语言广义线性回归建模 176
7.5.1 广义线性回归模型 176
7.5.2 广义线性回归应用 177
本章习题 181
第8章 R语言数据挖掘 183
8.1数据挖掘简介 183
8.1.1 数据挖掘的基本概念 183
8.1.2 数据挖掘的算法 184
8.1.3 数据挖掘的工具 187
8.1.4 R在数据挖掘中的优势 189
8.2 数据挖掘的四大应用场景 189
8.2.1 数据预测 190
8.2.2 发现数据的内在结构 191
8.2.3 发现关联性 192
8.2.4 模式甄别 194
8.3 数据挖掘流程 195
8.3.1 数据挖掘的三个主要阶段 195
8.3.2 数据挖掘解决问题的思想 197
8.4 分类预测基本流程 199
8.4.1 分类预测的基本流程和要素 199
8.4.2 分类预测错误和模型评价指标 200
8.4.3 分类预测模型案例 201
8.5 数据挖掘中的数据预处理 209
8.5.1 数据清洗 209
8.5.2 数据集成 213
8.5.3 数据变换 217
8.5.4 数据规约 226
8.6 R语言决策树分类方法 231
8.6.1 决策树算法介绍 232
8.6.2 随机森林算法介绍 234
8.6.3 决策树分类方法的应用 234
8.7 R语言高级分类方法 243
8.7.1 基于模型的分类算法 243
8.7.2 线性判别分析 243
8.7.3 朴素贝叶斯 244
8.7.4 bagging算法 245
8.7.5 boosting算法 245
8.7.6 高级分类方法的应用 245
8.8 R语言聚类分析与关联分析 252
8.8.1 K-Means聚类概念 252
8.8.2 分层聚类概念 253
8.8.3 聚类分析的应用 253
8.8.4 关联规则基本概念 256
8.8.5 关联分析的应用 257
8.9 智能推荐 263
8.9.1 智能推荐模型构建 263
8.9.2 智能推荐模型评价 269
8.10 时间序列挖掘 273
8.10.1 ARIMA模型 273
8.10.2 其他时间序列模型 279
8.11 离群点检测 286
8.11.1 离群点及其检测方法 286
8.11.2 离群点检验应用 293
本章习题 297
第9章 R语言数据分析综合应用 299
9.1 建立营销响应的模型 299
9.1.1 实验介绍 299
9.1.2 相关工具包 299
9.1.3 探索性数据分析和预处理 301
9.1.4 建立分类模型 305
9.2 预测销售额 307
9.2.1 实验介绍 307
9.2.2 相关工具包 308
9.2.3 探索性数据分析和预处理 309
9.2.4 查看竞争门店的各种信息 321
9.2.5 建立回归模型 328
9.3 水质评估 331
9.3.1 实验介绍 331
9.3.2 数据预处理 332
9.3.3 模型构建 333
9.3.4 水质评价 336
9.4 财政收入分析预测模型 337
9.4.1 实验介绍 337
9.4.2 数据探索分析 338
9.4.3 模型构建 341
9.4.4 财政收入预测模型 342
本章习题 353
参考文献 355
附录 356
二. 习题参考答案 356
內容試閱 :
前 言
大数据时代的到来,改变了许多行业的人才需求模式,大数据方面的人才成为各信息产业尤其是IT行业的热门人才。许多高等院校已经新增大数据技术相关专业,部分院校成立了大数据学院,标志着进行大数据技术人才培养已经正式纳入高等教育的培养需求。基于R语言培养大数据人才的基本要求,《R语言大数据技术应用实践》教材可作为大数据技术相关专业本科生及高职院校相关专业实践类的教材,以为培养大数据技术相关人才打下坚实的基础。
培养技术型及实践型人才是大数据时代教育部对大数据技术相关人才的基本要求,也是各信息产业对人才的基本需求。编写本书的目的就是要让大数据技术相关专业学生通过本课程的学习,了解大数据技术的基础知识,掌握基于R语言环境搭建大数据分析的基本流程及实现过程,提高学习本课程的兴趣,培养解决实际问题的能力。
本书最大的特色就是实践性较强,在阐述大数据技术相关基础知识的同时,辅以大量实践内容及项目实例,培养了学生的学习兴趣,可极大提高学生的动手能力。克服了许多教材注重理论缺少实践内容的弊端。学生们可在课后,自己进一步动手实践,提高了学生的学习效率。
本书主要以大数据技术及计算机相关专业的本科生及高职院校学生为读者对象,注重大数据技术相关基础知识,尤其是实践环节的描述,避免了繁琐的理论知识介绍。全书共包括9章,第1章是R语言基础简介,第2章是R语言数据准备,第3章是R语言数据处理,第4章是R语言数据分析,第5章是R语言数据可视化,第6章是网页数据抓取,第7章是R语言统计与建模,第8章是R语言数据挖掘,第9章是R语言数据分析综合应用。
第1章属于R基础知识部分,在搭建R语言环境和编码时是必备的知识,第2章到第7章是提高部分,主要是学习数据处理、数据分析、数据统计建模的整个过程。第8章是本书各个算法的实现及代码的实现介绍,最后第9章以各种不同领域的项目案例,从实际出发讲解R语言处理大数据信息。本书可以用作工科高校相关专业32-40学时的课程教程。
本书由上海工程技术大学方志军教授、李媛媛副教授、北京红亚华宇科技有限公司郑洪宾总经理任主编,由林民、王小英、丁伟杰、罗章涛副主编,具体分工是:由林民、王小英、丁伟杰、罗章涛参与教材整体框架设计,由北京红亚华宇科技有限公司提供实训素材,由方志军教授完成第1-5章的编写、李媛媛副教授完成第6-9章的编写。在本书编写及校对过程中,特别是项目实践内容验证过程中,得到了北京红亚华宇科技有限公司的大力帮助,在此表示衷心感谢。
由于编著者水平有限,书中难免存在错误之处,敬请读者批评指正。
编著者