登入帳戶  | 訂單查詢  | 購物車/收銀台( 0 ) | 在線留言板  | 付款方式  | 聯絡我們  | 運費計算  | 幫助中心 |  加入書簽
會員登入 新註冊 | 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類閱讀雜誌 香港/國際用戶
最新/最熱/最齊全的簡體書網 品種:超過100萬種書,正品正价,放心網購,悭钱省心 送貨:速遞 / EMS,時效:出貨後2-3日

2024年03月出版新書

2024年02月出版新書

2024年01月出版新書

2023年12月出版新書

2023年11月出版新書

2023年10月出版新書

2023年09月出版新書

2023年08月出版新書

2023年07月出版新書

2023年06月出版新書

2023年05月出版新書

2023年04月出版新書

2023年03月出版新書

2023年02月出版新書

『簡體書』R语言数据分析

書城自編碼: 2902651
分類: 簡體書→大陸圖書→計算機/網絡人工智能
作者: 盖尔盖伊·道罗齐
國際書號(ISBN): 9787111547952
出版社: 机械工业出版社
出版日期: 2016-10-01

頁數/字數: 279页
書度/開本: 16开 釘裝: 平装

售價:NT$ 518

我要買

share:

** 我創建的書架 **
未登入.



新書推薦:
蓝湖战略:在细分市场打造制造业的“隐形冠军”
《 蓝湖战略:在细分市场打造制造业的“隐形冠军” 》

售價:NT$ 386.0
螺蛳姐姐
《 螺蛳姐姐 》

售價:NT$ 279.0
数据科学技术:文本分析和知识图谱
《 数据科学技术:文本分析和知识图谱 》

售價:NT$ 722.0
胡佛的天梯
《 胡佛的天梯 》

售價:NT$ 493.0
愤怒:一部关于情绪的冲突史
《 愤怒:一部关于情绪的冲突史 》

售價:NT$ 381.0
两班:朝鲜王朝的特权阶层
《 两班:朝鲜王朝的特权阶层 》

售價:NT$ 269.0
永通万国:货币与历代兴衰
《 永通万国:货币与历代兴衰 》

售價:NT$ 549.0
进阶吧!投资者5
《 进阶吧!投资者5 》

售價:NT$ 610.0

建議一齊購買:

+

NT$ 353
《 大数据时代的算法:机器学习、人工智能及其典型实例 》
+

NT$ 374
《 乐高机器人设计及搭建绝妙技法 》
+

NT$ 593
《 深入理解机器学习:从原理到算法 》
+

NT$ 443
《 神经网络与深度学习 》
+

NT$ 299
《 深度学习:方法及应用 》
內容簡介:
本书共分为14章,重点探讨了数据预处理的方法,包括数据获取、筛选、重构、建模、平滑以及降维,本书还介绍了分类和聚类等几种主要的数据分析方法,zui后探讨了网络数据、时序数据、空间数据及社交媒体数据等一些特殊类型数据的分析处理。
目錄
Contents?目录译者序前言第1章 你好,数据!11.1 导入一个大小合适的文本文件21.2 文本文件编译测试平台51.3 导入文本文件的子集61.4 从数据库中导入数据81.4.1 搭建测试环境91.4.2 MySQL和MariaDB111.4.3 PostgreSQL151.4.4 Oracle数据库171.4.5 访问ODBC数据库221.4.6 使用图形化用户面连接数据库231.4.7 其他数据库后台241.5 从其他统计系统导入数据251.6 导入Excel电子表格261.7 小结26第2章 从Web获取数据282.1 从Internet导入数据集292.2 其他流行的在线数据格式322.3 从HTML表中读取数据372.4 从其他在线来源获取数据392.5 使用R包与数据源API交互422.5.1 Socrata的开源数据API432.5.2 金融API442.5.3 使用Quandl获取时序数据452.5.4 Google文档和统计数据462.5.5 在线搜索的发展趋势472.5.6 天气历史数据482.5.7 其他在线数据源492.6 小结49第3章 数据筛选和汇总503.1 去掉多余的数据503.1.1 快速去掉多余数据523.1.2 快速去掉多余数据的其他方法533.2 聚集543.2.1 使用基础的R命令实现快速聚集553.2.2 方便的辅助函数563.2.3 高性能的辅助函数573.2.4 使用data.table完成聚集593.3 测试593.4 汇总函数623.5 小结64第4章 数据重构654.1 矩阵转置654.2 基于字符串匹配实现数据筛选664.3 数据重排序674.4 dplyr包和data.table包的比较704.5 创建新变量704.5.1 内存使用分析714.5.2 同时创建多个变量724.5.3 采用dplyr包生成新变量734.6 数据集合并744.7 灵活地实现数据整形764.7.1 将宽表转换为长表774.7.2 将长表转换为宽表784.7.3 性能调整804.8 reshape包的演变804.9 小结81第5章 建模825.1 多元模型的由来835.2 线性回归及连续预测变量835.2.1 模型解释835.2.2 多元预测855.3 模型假定875.4 回归线的拟合效果905.5 离散预测变量925.6 小结95第6章 线性趋势直线外的知识966.1 工作流建模966.2 逻辑回归976.2.1 数据思考1006.2.2 模型拟合的好处1016.2.3 模型比较1026.3 计数模型1026.3.1 泊松回归1036.3.2 负二项回归1076.3.3 多元非线性模型1076.4 小结115第7章 非结构化数据1167.1 导入语料库1167.2 清洗语料库1187.3 展示语料库的高频词1217.4 深度清洗1217.4.1 词干提取1227.4.2 词形还原1247.5 词条关联说明1247.6 其他一些度量1257.7 文档分段1267.8 小结128第8章 数据平滑1298.1 缺失值的类型和来源1298.2 确定缺失值1308.3 忽略缺失值1318.4 去掉缺失值1348.5 在分析前或分析中筛选缺失值1368.6 填补缺失值1368.6.1 缺失值建模1388.6.2 不同填补方法的比较1408.6.3 不处理缺失值1418.6.4 多重填补1418.7 异常值和孤立点1418.8 使用模糊方法1448.9 小结146第9章 从大数据到小数据1479.1 充分性测试1489.1.1 正态性1489.1.2 多元变量正态性1499.1.3 变量间的依赖关系1529.1.4 KMO和Barlett检验1549.2 主成分分析1579.2.1 PCA算法1589.2.2 确定成分数1599.2.3 成分解释1619.2.4 旋转方法1649.2.5 使用PCA检测孤立点1679.3 因子分析1709.4 主成分分析和因子分析1729.5 多维尺度分析1739.6 小结176第10章 分类和聚类17710.1 聚类分析17810.1.1 层次聚类17810.1.2 确定簇的理想个数18110.1.3 k均值聚类18310.1.4 可视化聚类18510.2 潜类别模型18610.2.1 潜类别分析18710.2.2 LCR模型18910.3 判别分析18910.4 逻辑回归19210.5 机器学习算法19410.5.1 k近邻算法19510.5.2 分类树19710.5.3 随机森林20010.5.4 其他算法20110.6 小结203第11章 基于R的社会网络分析20411.1 装载网络数据20411.2 网络中心性度量20611.3 网络数据的展现20711.3.1 交互网络图21011.3.2 绘制层次图21111.3.3 使用R包来解释包的依赖关系21211.4 更多网络分析资源21211.5 小结213第12章 时序数据分析21412.1 创建时序对象21412.2 展现时序数据21512.3 季节性分解21712.4 Holt-Winters筛选21812.5 自回归积分滑动平均模型22012.6 孤立点检测22112.7 更复杂的时序对象22412.8 高级时序数据分析22512.9 小结225第13章 我们身边的数据22613.1 地理编码22613.2 在空间中展示数据点22813.3 找出数据点的多边形重叠区域23013.4 绘制主题图23213.5 围绕数据点绘制多边形23313.5.1 等高线23413.5.2 冯洛诺伊图23613.6 卫星图23713.7 交互图23813.7.1 查询Google地图23813.7.2 Java脚本地图库24013.8 其他绘图方法24213.9 空间数据分析24413.10 小结246第14章 分析R社区24714.1 R创始团队的成员24714.2 R开发包的维护人员24914.3 R-help邮件列表25314.3.1 R-help邮件列表的规模25614.3.2 预测未来的邮件规模25814.4 分析用户列表的重叠部分26014.5 社交媒体内的R用户数26214.6 社交媒体中与R相关的贴子26314.7 小结266附录267
內容試閱
Preface?前言自20多年前发源于学术界以来,R语言已经成为统计分析的通用语言,活跃于众多产业领域。目前,越来越多的商业项目开始使用R,兼之R用户开发了数以千计易于上手的开发包,都使得R成为数据分析工程师及科学家最常用的工具。本书将帮助读者熟悉R语言这一开源生态系统,并介绍一些基本的统计背景知识,以及一小部分相关的数学知识。我们将着重探讨使用R语言解决实际的问题。由于数据科学家在数据的采集、清洗及重构上将耗费大量时间,因此本书首先将通过第一手实例来重点探讨从文件、数据库以及在线资源中导入数据的方法,然后再介绍数据的重构和清洗——不包含实际的数据分析,最后几章将对一些特殊的数据类型以及经典的统计模型和部分机器学习算法进行说明。本书主要内容第1章从与所有数据相关项目都有关的关键性的第一步——从文本文件和数据库中导入数据开始。重点探讨使用优化的CSV分析器把数据载入R,预筛选数据,并对不同数据库后台对R的支持能力进行比较。第2章介绍如何使用面向Web服务和API通信的包实现数据的导入,包括如何从主页上整理和抽取数据。还将对处理XML和JSON格式数据进行概括性说明。第3章继续介绍基础的数据处理知识,包括多种数据筛选和聚集,并对data.table和dplyr这两个常见开发包在性能和使用语法方面进行比较。第4章介绍更多有关复杂数据类型的转换方法,相关函数包括处理数据子集、数据合并、长宽表数据格式到适合用户需要的工作流源数据格式之间的转换等。第5章开始介绍真实的统计模型,包括回归的概念、常用回归模型等。这一章篇幅不长,还介绍了模型测试的方法以及基于真实数据集如何解释某个多元线性回归模型结果。第6章在前述章节的基础上,探讨了预测变量的非线性关联,以及诸如逻辑回归和泊松回归等广义线性模型的样例。第7章介绍一些新的非结构化数据类型,读者将通过实践文本挖掘算法及对结果的可视化处理,了解使用统计模型来处理类似这样一些非结构化数据的方法。第8章探讨有关原始数据集的另一个常见问题。大多数时候,数据科学家需要处理脏数据,包括去掉错误数据、孤立点以及其他不正确的值,同时又要将缺失值带来的影响降到最低。第9章介绍如何从大数据中进行特征提取,假设我们已经装载了一个干净的数据集,并且完成了格式转换,当我们开始处理高维变量时,需要采用一些统计方法来进行降维以及其他包括主成分分析、因子分析和多维尺度分析等方法完成连续变量的转换。第10章讨论使用监督及非监督统计和机器学习方法来处理样本分组问题。这些方法包括层次聚类、k均值聚类、潜类别模型、判别分析、逻辑回归和k近邻算法,以及分类树和回归树。第11章重点探讨一类特殊的数据结构,包括其基本概念以及可视化网络分析技术,igraph包是该章的重点。第12章展示如何通过平滑、季节性分解以及ARIMA等方法处理分析时间-日期数据及其相关值,同时还将讨论有关预测和孤立点检测等技术。第13章探讨一类重要的数据维度——空间维,重点会放在通过主题图、交互图、等高线和冯洛诺伊图完成空间数据的可视化。第14章提供了一个更完整的样例,该样例中包含了很多前述章节中提到的方法来帮助读者复习这本书所学习到的主要内容,以及应对未来工作中可能遇到的问题和困难。附录给出了R语言的帮助索引,以及对前述章节中涉及内容的补充阅读。阅读准备本书所展示的代码都应该在R控制台内运行,读者需要事先安装好R,可以从http:r-project.org下载免费软件以及为所有主流操作系统准备的安装指南。本书并不会探讨其他更深入的内容,例如在集成开发环境(Integrated Development Environment IDE)下使用R的方法,尽管IDE为诸如Emacs、Eclipse、vi、NotePad++都提供了非常棒的插件和扩展。当然,我们还是建议读者能够使用RStudio,这是一个为R开发的开源免费IDE,访问地址为https:www.rstudio.comproductsRStudio。除了基础的R包,我们还会使用到部分用户自己提供的R包,它们大多都可以很容易地从R综合典藏网(Comprehensive R Archive Network,CRAN)处下载安装。附录中列出了本书用到的开发包以及多个版本。如果要从CRAN安装包,读者要确保网络通畅。假如要下载二进制文件,可以在R控制台调用install.packages命令:本书中所提到的部分包在CRAN上下载不了,但也许可以从Bitbucket或者GitHub处找到安装文件,然后再通过调用devtools包的install_bitbucket和install_github函数完成安装。Windows用户则需首先从https:cran.r-project.orgbinwindowsRtools处安装rtools包。安装完毕后,我们应该在使用包之前先将其装载到R会话中,附录中列出了所有包的目录,而每一章的一开始则对相关的源码和R命令做了介绍:我们极力建议读者下载安装本书的样例源码(可以参考前言的“样例源码下载”小节),这样读者就可以在R控制台很容易地复制和粘贴相关命令,而不需要再按照书中文字输入代码。如果读者之前没用过R语言,最好能够先从R主页上阅读一些免费的介绍性文章和帮助手册,本书附录中也列出了一些推荐阅读材料。读者人群如果你是数据科学家或者是R开发人员,希望更多地了解有关R的高级功能及工具,那么这本书就是为你而写。本书希望读者已经具备基础的R语言知识,了解数据库的逻辑。如果你是数据科学家、工程师或分析师,希望提高自己对R语言的开发能力,那么这本书也适合你。尽管需要掌握一些基本的R知识,本书还是为你提供了相关参考文档,能够帮助你快速进入角色并掌握相关技术。本书约定本书中任何将在R控制台输入或输出的命令行将采用如下格式:符号“”有提示的意思,指此处R控制台正在等待要输入执行的命令。如果命令长度超过一行,则第一行还是用“”开头,但剩下的其余行都要在行首添加符号“+”,代表该行不是一个完整的命令(例如,缺圆括号或引号)。命令的输出不需要增加任何首字母,字体采用和输入文本相同的等宽字体。新出现的术语和重要的文字将用粗体表示。警告或重要提示将跟在这样的符号后面。小窍门或诀窍将跟在这样的符号后面。样例源码下载你可以从http:www.packtpub.com通过个人账号下载你所购买书籍的样例源码。如果你是从其他途径购买的,可以访问http:www.packtpub.comsupport,完成账号注册,就可以直接通过邮件方式获得相关文件。你也可以访问华章图书官网:http:www.hzbook.com,通过注册并登录个人账号,下载本书的源代码。下载书中彩图我们还为读者准备了一个PDF文件,该文件包含了本书所有截图和样图,可以更好地帮助读者理解输出的变化。你可以从以下地址下载:http:www.packtpub.comsitesdefaultfilesdownloads1234OT_ColorImages.pdf

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 海外用户
megBook.com.tw
Copyright (C) 2013 - 2024 (香港)大書城有限公司 All Rights Reserved.