新書推薦:
《
爱的7种对话:建立持续一生的亲密关系 (加)苏·约翰逊
》
售價:NT$
345.0
《
中国近现代武术思想史研究
》
售價:NT$
500.0
《
废奴
》
售價:NT$
350.0
《
有法与无法:清代的州县制度及其运作 最新修订版
》
售價:NT$
640.0
《
重启春光
》
售價:NT$
214.0
《
“玉”见中国:玉器文化与中华文明(追寻玉出山河的前世今生,饱览中国万年玉文化的史诗画卷)
》
售價:NT$
690.0
《
官治与自治:20 世纪上半期的中国县制 最新修订版
》
售價:NT$
640.0
《
迈尔斯普通心理学
》
售價:NT$
760.0
|
內容簡介: |
本书首先简要介绍了大数据分析与挖掘的相关概念,以及R语言的基础知识,以此来帮助读者了解、使用R语言;其次详细介绍了探索性数据分析、数据采集,以此来帮助读者了解数据的基本分析方法和数据的获取方法;然后着重介绍了目前主流的数据挖掘算法——时间序列算法、线性回归算法、分类算法、关联算法、聚类算法,从算法的原理到如何使用R语言进行算法实现都进行了详细的介绍并提供了实操代码,以此帮助读者学习数据挖掘及使用R语言完成数据挖掘任务;最后通过6个旅游行业的实际案例来帮助读者将学习到的知识运用到真实的业务场景中,并融会贯通整个知识体系。 本书无须读者具备R语言和大数据分析与挖掘的基础知识。无论是R语言初学者,还是熟练的R语言用户,都能从本书中找到有用的内容。本书既可以作为一本学习R语言的教材,也可以作为大数据分析与挖掘的工具书。
|
關於作者: |
谢笑盈:统计学博士、副教授、硕士生导师、澳大利亚科廷大学访问学者,研究方向为大数据统计分析方法与应用。近5年来,主持完成国家社科基金项目1项,国家统计局重点项目1项;以第一作者或通讯作者身份发表中科院SCI1区TOP论文1篇、SCI2区TOP论文1篇、ESI高被引论文1篇、EI检索论文3篇,其他中文核心以上刊物论文5篇;指导学生获得全国大学生市场调查与分析大赛总决赛三等奖1次、浙江省大学生市场调查与分析大赛一等奖2次、浙江省金融创新大赛一等奖1次。
|
目錄:
|
第1章 大数据分析与挖掘概论11.1 大数据分析与挖掘11.1.1 大数据定义11.1.2 大数据分析与挖掘的概念21.2 大数据分析与挖掘流程31.2.1 数据获取31.2.2 数据预处理31.2.3 数据分析41.2.4 数据解释51.3 大数据分析与挖掘应用51.3.1 优化任务51.3.2 预测任务51.3.3 分类任务51.3.4 识别任务6第2章 R语言编程基础72.1 R语言的安装及配置72.1.1 R语言的获取和安装82.1.2 RStudio的获取和安装92.2 界面与菜单122.2.1 RGui界面122.2.2 RStudio界面122.3 变量与数据类型152.3.1 变量152.3.2 数据类型152.4 数据结构172.4.1 向量172.4.2 数组192.4.3 矩阵212.4.4 列表222.4.5 数据框232.4.6 因子252.5 控制语句262.5.1 条件语句262.5.2 循环语句282.6 函数302.6.1 内置函数302.6.2 自定义函数33第3章 数据预处理353.1 数据表的基本操作353.1.1 数据表保存353.1.2 数据表读取373.1.3 选取子集403.1.4 连接数据库423.2 数据分组、分割、合并和变形443.2.1 数据分组443.2.2 数据分割463.2.3 数据合并473.2.4 数据变形493.3 缺失值、异常值、重复值处理523.3.1 缺失值523.3.2 异常值593.3.3 重复值613.4 数据类型的转换623.4.1 判断数据类型函数623.4.2 转换数据类型的函数633.5 提取字符643.5.1 截取字符643.5.2 正则表达式65第4章 探索性数据分析694.1 描述性统计方法694.1.1 常用统计指标694.1.2 数据总结704.2 数据可视化724.2.1 箱线图724.2.2 直方图744.2.3 散点图754.2.4 饼图77第5章 数据采集805.1 网络数据采集的原理805.1.1 网页通信的过程805.1.2 请求数据的方法875.1.3 网页的组成元素885.2 数据采集入门905.2.1 数据采集常用包概述905.2.2 数据采集前的准备915.2.3 编写第一个数据采集925.3 使用常用的R包采集数据965.3.1 使用RCurl包获取网络数据965.3.2 使用rvest包获取网络数据985.3.3 使用httr包获取网络数据1065.4 爬虫限制处理1075.4.1 解决IP限制问题1085.4.2 验证码处理1095.4.3 登录问题处理110第6章 时间序列算法1116.1 时间序列算法概述1116.1.1 时序对象1136.1.2 时序平滑处理1136.1.3 时序季节性分解1166.2 时序指数模型1186.3 时序ARIMA模型122第7章 线性回归算法1297.1 一元线性回归模型1297.2 多项式回归模型1317.3 多元线性回归模型133第8章 分类算法1368.1 Logistic回归1368.1.1 Logistic回归算法原理1378.1.2 逻辑回归算法应用1398.2 决策树1438.2.1 决策树算法原理1438.2.2 决策树算法应用1478.3 支持向量机1508.3.1 支持向量机算法原理1518.3.2 支持向量机算法应用1558.4 朴素贝叶斯1578.4.1 贝叶斯定理1578.4.2 最大似然估计1578.4.3 朴素贝叶斯分类算法原理1588.4.4 朴素贝叶斯分类算法应用1598.5 人工神经网络1668.5.1 人工神经网络的基本概念1668.5.2 感知器和人工神经元模型1678.5.3 前馈神经网络1688.5.4 人工神经网络算法应用1698.6 随机森林1778.6.1 随机森林算法原理1778.6.2 随机森林算法应用1788.7 XGBoost算法1838.7.1 XGBoost算法的原理1848.7.2 XGBoost算法应用187第9章 关联算法1899.1 关联算法概述1899.1.1 相关名词1909.1.2 关联规则及频繁项集的产生1909.2 Apriori算法1919.2.1 Apriori算法概述1919.2.2 先验原理1919.2.3 连接步和剪枝步1929.2.4 Apriori算法流程1939.2.5 Apriori算法实例1939.3 ECLAT算法1969.3.1 ECLAT算法概述1969.3.2 ECLAT算法流程1989.3.3 ECLAT算法实例198第10章 聚类算法20210.1 聚类算法概述20210.1.1 聚类算法的类型20210.1.2 聚类算法评估的特点20210.2 K均值聚类算法20310.2.1 划分方法概述20310.2.2 K均值聚类算法的优缺点20310.2.3 K均值聚类算法的流程20310.2.4 K均值聚类分析案例20410.3 凝聚式层次聚类算法20510.3.1 凝聚式层次聚类概述20510.3.2 凝聚式层次聚类算法流程20710.3.3 凝聚式层次聚类算法实例209【应用案例1】景点舆情数据采集211【应用案例2】旅游电商平台数据采集218【应用案例3】旅游网站景点路线推荐233【应用案例4】旅游城市和景点的负荷预测236【应用案例5】精品旅行服务成单预测239【应用案例6】航班延误预测259
|
|