新書推薦:

《
冲突:从“未开社会”到现代社会的人类学研究
》
售價:NT$
245.0

《
投资金字塔 独创“投资金字塔”交易体系 经典案例分析,图表结合,数据详实 让自己成为股市中赚钱的那拨人
》
售價:NT$
347.0

《
瞧,这个诗人(“轻与重”文丛)
》
售價:NT$
347.0

《
时刻人文·生长于斯:六朝史上的“地方”(“除了华丽的庙堂与隐秘的山林,六朝历史还存在于各地方当中。”青年历史学者林昌丈作品。回归“地方”,开拓六朝史研究的新视野。)
》
售價:NT$
398.0

《
企业ESG战略规划与实施
》
售價:NT$
403.0

《
索恩丛书·死敌:太平洋战争,1944~1945
》
售價:NT$
704.0

《
时刻人文·跨太平洋的华人改良与革命(1898—1918)(早在辛亥革命爆发之前,革命党的胜利就已在北美唐人街悄然埋下伏笔……)
》
售價:NT$
469.0

《
天历探原
》
售價:NT$
301.0
|
編輯推薦: |
本书介绍基于R语言的大数据分析解决方案。可供大数据领域工程技术人员、计算机类专业高年级本科学生和硕士研究生使用。
|
內容簡介: |
大数据分析包括查询型分析、描述性分析、探索性分析、挖掘型分析等。本书介绍基于R语言的大数据分析解决方案。全书分3篇共18章。第1篇R语言,包括第1~10章,分别为R语言概览、表达式、字符串与正规表达式、函数、向量、矩阵、数据框、列表、面向对象程序设计、数据存储;第2篇可视化,包括第11、12章,分别为统计绘图、图形文法ggplot2;第3篇数据分析,包括第13~18章,分别为数据分析基础、查询型分析与数据表、描述性统计与探索性分析、挖掘型分析、离群点检测、文本挖掘。
本书力求通俗易懂、简单实用,示例丰富,可供大数据领域工程技术人员、计算机类专业高年级本科学生和硕士研究生使用。
|
目錄:
|
第1篇R语言
第1章R语言概览/31.1下载和安装R4
1.2安装和加载R程序包6
1.3R的基本使用7
1.4工作文件夹与工作空间10
1.5数据集12
第2章表达式/18
2.1字面量18
2.2运算符和表达式20
2.3日期时间23
第3章字符串与正规表达式/27
3.1字符串处理27
3.1.1字符个数27
3.1.2子串28
3.1.3拆分29
3.1.4连接30
3.1.5查找31
3.1.6替换31
3.1.7大小写转换32
3.1.8格式化32
3.2正规表达式33
第4章函数/37
4.1函数声明和调用37
4.2环境40
4.2.1环境的嵌套40
4.2.2访问环境42〖1〗R语言大数据分析目录〖3〗〖3〗4.2.3与函数相关的环境44
4.3控制结构46
第5章向量/51
5.1创建向量51
5.1.1枚举法51
5.1.2描述法52
5.1.3数列法53
5.1.4向量元素的命名54
5.1.5类型判断与类型转换54
5.2访问向量55
5.3算术运算57
5.4逻辑运算和关系运算60
5.5查询62
5.5.1条件查询62
5.5.2聚合查询63
5.6面向集合的查询66
5.7面向向量的程序设计67
5.8因子69
第6章矩阵/72
6.1创建矩阵72
6.2访问矩阵75
6.3矩阵运算77
第7章数据框/81
7.1创建数据框81
7.2访问数据框82
7.3tibble对象87
第8章列表/90
8.1创建列表90
8.2访问列表91
8.3泛函数93
第9章面向对象程序设计/102
9.1类的定义102
9.2静态属性104
9.3面向对象的R脚本设计107
第10章数据存储/113
10.1导入导出113
10.1.1函数read.table和write.table113
10.1.2函数read.csv和write.csv114
10.1.3函数readLines和writeLines116
10.1.4读取Excel工作表116
10.1.5ODBC数据源117
10.2持久化R数据对象119
10.3格式化输出120
10.4虚拟内存121
10.5操作文件和文件夹125
第2篇可视化
第11章统计绘图/13111.1绘图设备131
11.2布局133
11.3绘图函数135
11.4常用绘图参数145
11.5散点图148
11.6核密度图150
11.7箱线图151
11.8柱形图152
11.9饼图155
11.10直方图156
11.11折线图157
第12章图形文法ggplot2/158
12.1ggplot2简介158
12.2散点图170
12.3直方图175
12.4箱线图180
12.5柱形图182
12.6折线图187
12.7标注192
12.8统计变换197
12.9位置调整200
12.10尺度变换202
12.11切面212
12.12主题216
12.13色彩与构成217
12.13.1颜色与颜色的属性217
12.13.2色彩搭配218
12.14调色板218
12.15案例研究221
第3篇数 据 分 析
第13章数据分析基础/22913.1数据质量的度量229
13.2数据清洗变换230
13.2.1缺失值230
13.2.2重复232
13.2.3有效性233
13.2.4统计量233
13.3可视化234
13.4查询型大数据分析241
13.5探索性大数据分析242
13.6挖掘型大数据分析245
第14章查询型分析与数据表/247
14.1数据表247
14.2创建和引用数据表248
14.2.1创建数据表248
14.2.2引用数据表250
14.3查询数据表250
14.3.1按行号查询250
14.3.2条件查询251
14.3.3查询结果的类型252
14.3.4分组汇总254
14.3.5键和索引256
14.3.6应用只读变量查询258
14.3.7其他260
14.4去重263
14.5上卷266
14.6连接268
14.7集合运算271
14.8更新272
14.9行列变换276
第15章描述性统计与探索性分析/278
15.1总体与样本278
15.2概率分布280
15.3联合分布281
15.4可视化分布283
15.5样本平均数的分布285
15.6描述性统计287
15.6.1集中趋势287
15.6.2变异性287
15.7探索性数据分析292
15.7.1皮尔逊相关292
15.7.2斯皮尔曼等级相关297
15.7.3肯德尔相关299
15.8z分数301
15.9假设检验302
15.10卡方检验306
15.11抽样309
第16章挖掘型分析/312
16.1数据挖掘任务312
16.2决策树分类314
16.3朴素贝叶斯分类318
16.4K最近邻分类321
16.5一元线性回归324
16.6Logistic回归329
16.7分类算法的性能评估333
16.7.1查准率和查全率333
16.7.2ROC曲线334
16.8K均值聚类338
16.9EM聚类345
16.10Apriori关联规则347
16.11序列模式挖掘350
第17章离群点检测/354
17.1基于统计的检测356
17.2基于最近邻的方法360
17.3基于划分的算法361
17.3.1隔离森林算法362
17.3.2扩展的隔离森林算法364
17.4基于聚类的方法367
17.5多变量离群点检测371
17.6单变量离群点检测374
17.7贡献分析377
第18章文本挖掘/381
18.1文本挖掘简介381
18.2语篇分析382
18.3词嵌入383
18.4影评分类案例385
18.4.1基于词汇表的向量化386
18.4.2修剪词汇388
18.4.3Ngrams389
18.4.4特征哈希390
18.4.5变换DTM391
参考文献/392
|
內容試閱:
|
大数据(big data)由极其宽泛的数据形成,体量大、流量大、多种多样、变化不定,需要可伸缩的体系结构以实现高效存储、操作和分析。简单来说,大数据就是体量超出了内存容量,甚至超出了本地磁盘容量的数据。
一个大数据分析项目由四个阶段组成: 数据收集(collection)、数据预处理(preparation)、数据分析(analysis)和行动(action)。数据收集是从数据源汇集数据的过程;数据预处理包括清洗、变换等;数据分析就是洞察数据,发现类别、规则、关联、相关、因果等知识;行动就是应用分析的结果为社会创造价值。
“分而治之”是解决复杂问题的基本策略。大数据分析是一个复杂问题。把大规模数据分解成N个小规模数据,得到N个分析结果,然后再把N个分析结果约简为一个综合的结果是大数据分析的一种范式。Hadoop生态系统实现了这种范式,提供了基于分布式文件系统的解决方案,并且算力能够无限线性叠加。但是,对于超出了内存限制但未超出磁盘容量限制的数据来说,需要更为廉价、方便、可移动的大数据分析解决方案。
同质并且成批收集的数据,称为“成块”(chunked)数据。大数据分析通常在一定的时间间隔(每年、每月、每天等)内按单独的数据文件从不同数据源收集数据,其累积的数据文件作为大数据分析的输入。
本书讨论面向成块数据的大数据分析解决方案,应用共享磁盘存储和虚拟内存技术解决数据“体量大”的问题,应用可扩展的R语言实现全生命周期的大数据分析。R是统计学专家和计算机科学与技术专家喜爱的计算机语言,也是一个开源免费的数据分析平台,其最大的优势在于可扩展性。几乎每天都有新的R扩展包加入R语言,这使得R语言途径的大数据分析成为众多的大数据分析解决方案之一。
本书受到教育考试院“十四五”规划支撑专项课题“互联网 ”环境中机考平台的设计与应用(批准号: NEEA2021064)的支持;并受到河北省教育厅教育发展专项“数字化背景下河北省青少年学生体质健康促进研究”(课题号: WTZX202421)的支持。
河北师范大学高峰博士参与了例题设计;河北师范大学刘志华教授审阅了第15章并提出了修改意见;河北师范大学2020级计算机技术专业硕士杨文浩、刘俊成、王志超等通读了全文并提出了修改意见。在此一并表示感谢。同时感谢我的家人对我的理解和支持。
董东
2024年5月于河北师范大学
|
|