新書推薦:
《
孤独传:一种现代情感的历史
》
售價:NT$
390.0
《
家、金钱和孩子
》
售價:NT$
295.0
《
量价关系——透视股票涨跌脉络
》
售價:NT$
340.0
《
二十四节气生活美学
》
售價:NT$
340.0
《
西班牙内战:秩序崩溃与激荡的世界格局:1936-1939
》
售價:NT$
990.0
《
基于鲲鹏的分布式图分析算法实战
》
售價:NT$
495.0
《
夺回大脑 如何靠自己走出强迫
》
售價:NT$
299.0
《
图解机械工程入门
》
售價:NT$
440.0
|
編輯推薦: |
本书主要具有以下特色: 1.内容全面,循序渐进。本书围绕R语言数据分析相关语法和常用数据分析包展开,内容由浅入深,非常适合初学者学习。 2.案例丰富,实用性强。书中选取了不同场合下的各种数据分析案例,不仅中间穿插有小案例,书末还有综合性的大案例,通过案例实操,让读者能够快速掌握所学知识,并应用到实际工作中。 3.全彩图解,直观易懂。本书采用全彩印刷,书中通过大量的彩色图片展示,让读者一目了然,迅速了解并掌握具体的操作方法、步骤以及实现效果。 4.学习资源,超值赠送。重要知识点及实战案例均配有二维码视频讲解,扫码观看,学习更便捷。此外,还附赠相关实例素材源文件、电子书等资源,方便实践练习与知识拓展。
|
內容簡介: |
本书基于主流统计分析编程语言R,介绍了常用的数据分析方法及其实战应用,内容涵盖了R语言的使用、基于ggplot2包及其拓展包的数据可视化、数据的清洗与探索、数据分析、数据挖掘以及统计分析方法等。本书在讲解数据分析时,主要基于tidyverse系列包进行数据整理、操作与可视化,基于tidymodels系列包进行数据分析、统计分析、机器学习等算法的应用,其它的R包用于数据分析的辅助。使用R语言时,遵循更新更简洁的编程方式。本书内容循序渐进,讲解通俗易懂,同时配套源程序和数据文件,读者可以边学边实践。本书可供从事数据分析、数据可视化、机器学习的科研及技术人员阅读使用,也可作为高等院校中统计学、计算机科学等相关专业的教材。
|
目錄:
|
第1章 R语言与数据分析 001
1.1 R与RStudio安装 002
1.1.1 R语言安装 002
1.1.2 RStudio安装 003
1.1.3 R包安装 005
1.2 数据分析简介 007
1.2.1 数据分析的内容 007
1.2.2 数据分析工作流程 010
1.2.3 什么是数据分析师 012
1.2.4 数据分析师需要的技术和知识 012
1.3 R语言与数据分析 012
1.3.1 R语言为何适合数据分析 012
1.3.2 R语言常用数据分析包 013
1.4 本章小结 016
第2章 R语言快速入门 017
2.1 向量的数据类型 018
2.1.1 数值型 018
2.1.2 逻辑值型 020
2.1.3 字符型 020
2.1.4 因子型 022
2.2 矩阵与高维数组 023
2.2.1 矩阵 023
2.2.2 高维数组 025
2.3 数据框与列表 027
2.3.1 数据框 027
2.3.2 列表 030
2.4 条件判断与循环语句 032
2.4.1 条件判断语句 032
2.4.2 循环语句 033
2.5 编写自己的函数 035
2.6 本章小结 037
第3章 R语言数据管理与操作 039
3.1 数据导入与保存 040
3.1.1 数据导入 040
3.1.2 数据保存 042
3.2 处理缺失值 042
3.2.1 缺失值发现 043
3.2.2 缺失值填充 044
3.3 数据操作 046
3.3.1 数据并行计算 046
3.3.2 数据选择、过滤、分组 050
3.3.3 数据融合 059
3.3.4 进行长宽数据转换 061
3.4 其它数据处理 062
3.4.1 lubridate包处理时间数据 062
3.4.2 stringr包处理文本数据 066
3.5 本章小结 072
第4章 R语言数据可视化 073
4.1 R语言基础绘图系统 074
4.1.1 基础绘图系统可视化基本设置 074
4.1.2 基础绘图系统可视化实战 078
4.2 ggplot2包数据可视化 084
4.2.1 使用图层构建图像 085
4.2.2 ggplot2可视化进阶 092
4.3 R语言其它数据可视化包 100
4.3.1 GGally包数据可视化 100
4.3.2 ggChernoff包数据可视化 103
4.3.3 ggTimeSeries包数据可视化 104
4.3.4 pheatmap包数据可视化 106
4.3.5 igraph包数据可视化 108
4.3.6 wordcloud包数据可视化 111
4.3.7 ComplexUpset包数据可视化 112
4.4 本章小结 114
第5章 R语言数据分析 115
5.1 相关性分析 116
5.1.1 相关系数介绍 116
5.1.2 相关系数计算与可视化分析 117
5.2 方差分析 118
5.2.1 单因素方差分析 118
5.2.2 双因素方差分析 120
5.3 降维 123
5.3.1 常用数据降维算法 123
5.3.2 数据降维实战 125
5.4 回归分析 133
5.4.1 常用回归算法 133
5.4.2 回归评价指标 135
5.4.3 数据回归实战 136
5.5 分类 147
5.5.1 常用分类算法 147
5.5.2 分类评价指标 153
5.5.3 数据分类实战 154
5.6 聚类 165
5.6.1 常用数据聚类算法 165
5.6.2 聚类评价指标 168
5.6.3 数据聚类实战 168
5.7 时间序列预测 173
5.7.1 时序预测的相关模型 173
5.7.2 时间序列预测实战 176
5.8 本章小结 185
第6章 综合案例1:中药材鉴别 187
6.1 聚类算法鉴别药材种类 189
6.1.1 数据探索与可视化 189
6.1.2 数据降维与特征提取 192
6.1.3 数据聚类 193
6.2 分类算法鉴别药材的产地 195
6.2.1 数据导入与探索 195
6.2.2 选择数据中的重要特征 197
6.2.3 鉴别药材的产地 200
6.3 分类算法鉴别药材的类别 202
6.3.1 数据导入与探索 202
6.3.2 数据特征降维 204
6.3.3 预测药材的类别 205
6.4 分类算法预测药材的产地 210
6.4.1 数据导入与探索 210
6.4.2 数据特征降维 212
6.4.3 预测药材的产地 213
6.5 本章小结 220
第7章 综合案例2:抗乳腺癌候选药物分析 221
7.1 数据特征提取 224
7.1.1 数据可视化探索 225
7.1.2 特征选择 228
7.2 回归模型预测生物活性 232
7.2.1 利用随机森林提取的特征建立回归模型 232
7.2.2 利用Lasso回归提取的特征建立回归模型 235
7.3 分类模型预测二分类变量 236
7.3.1 通过递归特征消除提取特征建立分类模型 236
7.3.2 通过主成分降维提取特征建立分类模型 241
7.4 本章小结 244
第8章 综合案例3:文本内容数据分析 245
8.1 文本预处理 248
8.1.1 读取文本数据 248
8.1.2 文本数据清洗 249
8.2 特征提取与可视化 252
8.2.1 TF特征 253
8.2.2 TF-IDF特征 254
8.2.3 词云可视化 255
8.3 文本聚类 256
8.3.1 LDA主题模型聚类 256
8.3.2 K均值聚类 261
8.4 对文本进行分类 264
8.4.1 基于TF-IDF特征建立分类模型 264
8.4.2 基于TF特征建立分类模型 266
8.5 中文文本数据分析 268
8.5.1 《三国演义》文本数据预处理 269
8.5.2 对文本数据探索与特征提取 270
8.5.3 建立LDA主题模型 273
8.6 本章小结 276
参考文献 277
|
內容試閱:
|
R语言是一套完整的数据准备、处理、分析与可视化的科学系统,对数据科学、机器学习及深度学习,均有一套完备的解决方案。其最先在国外流行,传入我国后,迅速受到高校以及各行业的喜爱,大多数高校都将R语言作为统计学的编程入门课,其受欢迎程度远远领先于大多数商业统计软件。
本书是R语言在数据分析方面从入门到提升的教程,将R语言编程与数据分析实战案例紧密结合,可帮助读者快速掌握R语言进行数据分析。
本书一共有8章。各章的内容设置如下。
第1章 R语言与数据分析。该章主要介绍R与RStudio的安装与使用,数据分析的简要内容,以及R语言在数据分析上的优势等。帮助读者快速建立起对R语言数据分析的全面认知,为后面的学习做准备。
第2章 R语言快速入门。该章主要是对R语言的使用进行快速入门,详细介绍向量、矩阵、数组、数据框、列表、判断与循环语句,以及如何编写R函数等内容。
第3章 R语言数据管理与操作。该章主要介绍R语言中如何对数据进行导入与保存、缺失值处理,数据并行计算,数据选择、分组计算,数据融合以及数据长宽变换,时间数据与文本数据的操作等内容。
第4章 R语言数据可视化。该章主要介绍R语言中流行的数据可视化方式的使用,主要包括基础数据可视化包graphics的使用,ggplot2绘图系统的使用,以及R语言中其它常用的第三方数据可视化包的使用。
第5章 R语言数据分析。该章主要介绍常用数据分析方法,如相关性分析、方差分析、数据降维算法、数据回归分析、数据分类算法、数据聚类算法以及时间序列预测相关的算法等,并使用R语言结合实际的数据集进行数据分析实战。
第6章 综合案例1:中药材鉴别。该章从数据分析实战应用出发,结合真实的中药材红外特征数据集,介绍了如何利用R语言将数据可视化、数据分析,以及机器学习算法相结合,对中药材鉴别中的相关问题进行分析和处理。在应用无监督学习时,主要使用聚类算法对数据进行聚类分析,使用数据降维算法对数据进行降维分析;在使用有监督学习时,主要以特征选择、数据降维与分类算法相结合的方式,对数据进行分类。
第7章 综合案例2:抗乳腺癌候选药物分析。该章使用R语言分析了一个抗乳腺癌候选药物数据分析案例,主要介绍数据可视化探索分析、数据重要特征选择、数据回归分析算法、数据降维算法,以及数据分类等算法的应用。
第8章 综合案例3:文本内容数据分析。该章以R语言对新闻文本数据、《三国演义》文本数据进行分析为例,主要介绍在文本分析中常用的数据准备与清洗、特征提取、文本数据可视化、文本聚类、文本分类等相关方法的应用。
本书内容丰富,由易到难、逐步深入,所选用的案例很有代表性,且每章均配有大量的示例代码和详细注释(关于程序和数据文件,可前往化学工业出版社官网www.cip.com.cn/Service/Download搜索本书并获取配套资源的下载地址),便于读者自己动手练习。
由于编著者水平有限,编写时间仓促,书中难免存在疏漏,敬请读者不吝指正。
编著者
|
|