《R语言大数据分析》 - 台灣·大書城 - 董东，高峰 - 清华大学出版社

	登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台(0)　\|　在線留言板　 \|　付款方式　 \|　聯絡我們　 \|　運費計算　 \|　幫助中心　\|　加入書簽
		會員登入新用戶註冊

HOME

新書上架

暢銷書架

好書推介

2024年度TOP

香港／國際用戶

最新/最熱/最齊全的簡體書網

品種：超過100萬種書，正品正价，放心網購，悭钱省心

送貨：速遞 / 物流，時效：出貨後2-4日

『簡體書』R语言大数据分析

書城自編碼： 4068595
分類：簡體書→大陸圖書→教材→研究生/本科/专科教材
作者：董东，高峰
國際書號(ISBN)： 9787302677017
出版社：清华大学出版社
出版日期： 2024-12-01

頁數/字數： /
書度/開本： 16开釘裝：平装

售價：NT$ 403

我要買件

** 我創建的書架 **
未登入.

新書推薦：

《冲突：从“未开社会”到现代社会的人类学研究》
售價：NT$ 245.0

《投资金字塔独创“投资金字塔”交易体系经典案例分析，图表结合，数据详实让自己成为股市中赚钱的那拨人》
售價：NT$ 347.0

《瞧，这个诗人（“轻与重”文丛）》
售價：NT$ 347.0

《时刻人文·生长于斯：六朝史上的“地方”（“除了华丽的庙堂与隐秘的山林，六朝历史还存在于各地方当中。”青年历史学者林昌丈作品。回归“地方”，开拓六朝史研究的新视野。）》
售價：NT$ 398.0

《企业ESG战略规划与实施》
售價：NT$ 403.0

《索恩丛书·死敌：太平洋战争，1944～1945 》
售價：NT$ 704.0

《时刻人文·跨太平洋的华人改良与革命（1898—1918）（早在辛亥革命爆发之前，革命党的胜利就已在北美唐人街悄然埋下伏笔……）》
售價：NT$ 469.0

《天历探原》
售價：NT$ 301.0

編輯推薦：

本书介绍基于R语言的大数据分析解决方案。可供大数据领域工程技术人员、计算机类专业高年级本科学生和硕士研究生使用。

內容簡介：

大数据分析包括查询型分析、描述性分析、探索性分析、挖掘型分析等。本书介绍基于R语言的大数据分析解决方案。全书分3篇共18章。第1篇R语言，包括第1～10章，分别为R语言概览、表达式、字符串与正规表达式、函数、向量、矩阵、数据框、列表、面向对象程序设计、数据存储；第2篇可视化，包括第11、12章，分别为统计绘图、图形文法ggplot2；第3篇数据分析，包括第13～18章，分别为数据分析基础、查询型分析与数据表、描述性统计与探索性分析、挖掘型分析、离群点检测、文本挖掘。
本书力求通俗易懂、简单实用，示例丰富，可供大数据领域工程技术人员、计算机类专业高年级本科学生和硕士研究生使用。

第1篇R语言
第1章R语言概览/31.1下载和安装R4
1.2安装和加载R程序包6
1.3R的基本使用7
1.4工作文件夹与工作空间10
1.5数据集12
第2章表达式/18
2.1字面量18
2.2运算符和表达式20
2.3日期时间23
第3章字符串与正规表达式/27
3.1字符串处理27
3.1.1字符个数27
3.1.2子串28
3.1.3拆分29
3.1.4连接30
3.1.5查找31
3.1.6替换31
3.1.7大小写转换32
3.1.8格式化32
3.2正规表达式33
第4章函数/37
4.1函数声明和调用37
4.2环境40
4.2.1环境的嵌套40
4.2.2访问环境42〖1〗R语言大数据分析目录〖3〗〖3〗4.2.3与函数相关的环境44
4.3控制结构46
第5章向量/51
5.1创建向量51
5.1.1枚举法51
5.1.2描述法52
5.1.3数列法53
5.1.4向量元素的命名54
5.1.5类型判断与类型转换54
5.2访问向量55
5.3算术运算57
5.4逻辑运算和关系运算60
5.5查询62
5.5.1条件查询62
5.5.2聚合查询63
5.6面向集合的查询66
5.7面向向量的程序设计67
5.8因子69
第6章矩阵/72
6.1创建矩阵72
6.2访问矩阵75
6.3矩阵运算77
第7章数据框/81
7.1创建数据框81
7.2访问数据框82
7.3tibble对象87
第8章列表/90
8.1创建列表90
8.2访问列表91
8.3泛函数93
第9章面向对象程序设计/102
9.1类的定义102
9.2静态属性104
9.3面向对象的R脚本设计107
第10章数据存储/113
10.1导入导出113
10.1.1函数read.table和write.table113
10.1.2函数read.csv和write.csv114
10.1.3函数readLines和writeLines116
10.1.4读取Excel工作表116
10.1.5ODBC数据源117
10.2持久化R数据对象119
10.3格式化输出120
10.4虚拟内存121
10.5操作文件和文件夹125
第2篇可视化
第11章统计绘图/13111.1绘图设备131
11.2布局133
11.3绘图函数135
11.4常用绘图参数145
11.5散点图148
11.6核密度图150
11.7箱线图151
11.8柱形图152
11.9饼图155
11.10直方图156
11.11折线图157
第12章图形文法ggplot2/158
12.1ggplot2简介158
12.2散点图170
12.3直方图175
12.4箱线图180
12.5柱形图182
12.6折线图187
12.7标注192
12.8统计变换197
12.9位置调整200
12.10尺度变换202
12.11切面212
12.12主题216
12.13色彩与构成217
12.13.1颜色与颜色的属性217
12.13.2色彩搭配218
12.14调色板218
12.15案例研究221
第3篇数据分析
第13章数据分析基础/22913.1数据质量的度量229
13.2数据清洗变换230
13.2.1缺失值230
13.2.2重复232
13.2.3有效性233
13.2.4统计量233
13.3可视化234
13.4查询型大数据分析241
13.5探索性大数据分析242
13.6挖掘型大数据分析245
第14章查询型分析与数据表/247
14.1数据表247
14.2创建和引用数据表248
14.2.1创建数据表248
14.2.2引用数据表250
14.3查询数据表250
14.3.1按行号查询250
14.3.2条件查询251
14.3.3查询结果的类型252
14.3.4分组汇总254
14.3.5键和索引256
14.3.6应用只读变量查询258
14.3.7其他260
14.4去重263
14.5上卷266
14.6连接268
14.7集合运算271
14.8更新272
14.9行列变换276
第15章描述性统计与探索性分析/278
15.1总体与样本278
15.2概率分布280
15.3联合分布281
15.4可视化分布283
15.5样本平均数的分布285
15.6描述性统计287
15.6.1集中趋势287
15.6.2变异性287
15.7探索性数据分析292
15.7.1皮尔逊相关292
15.7.2斯皮尔曼等级相关297
15.7.3肯德尔相关299
15.8z分数301
15.9假设检验302
15.10卡方检验306
15.11抽样309
第16章挖掘型分析/312
16.1数据挖掘任务312
16.2决策树分类314
16.3朴素贝叶斯分类318
16.4K最近邻分类321
16.5一元线性回归324
16.6Logistic回归329
16.7分类算法的性能评估333
16.7.1查准率和查全率333
16.7.2ROC曲线334
16.8K均值聚类338
16.9EM聚类345
16.10Apriori关联规则347
16.11序列模式挖掘350
第17章离群点检测/354
17.1基于统计的检测356
17.2基于最近邻的方法360
17.3基于划分的算法361
17.3.1隔离森林算法362
17.3.2扩展的隔离森林算法364
17.4基于聚类的方法367
17.5多变量离群点检测371
17.6单变量离群点检测374
17.7贡献分析377
第18章文本挖掘/381
18.1文本挖掘简介381
18.2语篇分析382
18.3词嵌入383
18.4影评分类案例385
18.4.1基于词汇表的向量化386
18.4.2修剪词汇388
18.4.3Ngrams389
18.4.4特征哈希390
18.4.5变换DTM391
参考文献/392

內容試閱：

大数据（big data）由极其宽泛的数据形成，体量大、流量大、多种多样、变化不定，需要可伸缩的体系结构以实现高效存储、操作和分析。简单来说，大数据就是体量超出了内存容量，甚至超出了本地磁盘容量的数据。
一个大数据分析项目由四个阶段组成：数据收集（collection）、数据预处理（preparation）、数据分析（analysis）和行动（action）。数据收集是从数据源汇集数据的过程；数据预处理包括清洗、变换等；数据分析就是洞察数据，发现类别、规则、关联、相关、因果等知识；行动就是应用分析的结果为社会创造价值。
“分而治之”是解决复杂问题的基本策略。大数据分析是一个复杂问题。把大规模数据分解成N个小规模数据，得到N个分析结果，然后再把N个分析结果约简为一个综合的结果是大数据分析的一种范式。Hadoop生态系统实现了这种范式，提供了基于分布式文件系统的解决方案，并且算力能够无限线性叠加。但是，对于超出了内存限制但未超出磁盘容量限制的数据来说，需要更为廉价、方便、可移动的大数据分析解决方案。
同质并且成批收集的数据，称为“成块”（chunked）数据。大数据分析通常在一定的时间间隔（每年、每月、每天等）内按单独的数据文件从不同数据源收集数据，其累积的数据文件作为大数据分析的输入。
本书讨论面向成块数据的大数据分析解决方案，应用共享磁盘存储和虚拟内存技术解决数据“体量大”的问题，应用可扩展的R语言实现全生命周期的大数据分析。R是统计学专家和计算机科学与技术专家喜爱的计算机语言，也是一个开源免费的数据分析平台，其最大的优势在于可扩展性。几乎每天都有新的R扩展包加入R语言，这使得R语言途径的大数据分析成为众多的大数据分析解决方案之一。
本书受到教育考试院“十四五”规划支撑专项课题“互联网 ”环境中机考平台的设计与应用（批准号： NEEA2021064）的支持；并受到河北省教育厅教育发展专项“数字化背景下河北省青少年学生体质健康促进研究”（课题号： WTZX202421）的支持。
河北师范大学高峰博士参与了例题设计；河北师范大学刘志华教授审阅了第15章并提出了修改意见；河北师范大学2020级计算机技术专业硕士杨文浩、刘俊成、王志超等通读了全文并提出了修改意见。在此一并表示感谢。同时感谢我的家人对我的理解和支持。
董东
2024年5月于河北师范大学

書城介紹　 \|　合作申請　\|　索要書目　 \|　新手入門　\|　聯絡方式　 \|　幫助中心　\|　找書說明　 \|　送貨方式　\|　付款方式	台灣用户　\|　香港/海外用户

megBook.com.tw
Copyright (C) 2013 - 2025 （香港）大書城有限公司　All Rights Reserved.