《机器学习与R语言（原书第3版）》 - 台灣·大書城 - [美]布雷特·兰茨[Brett Lantz] - 机械工业出版社

	登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台(0)　\|　在線留言板　 \|　付款方式　 \|　聯絡我們　 \|　運費計算　 \|　幫助中心　\|　加入書簽
		會員登入新用戶註冊

HOME

新書上架

暢銷書架

好書推介

2024年度TOP

香港／國際用戶

最新/最熱/最齊全的簡體書網

品種：超過100萬種書，正品正价，放心網購，悭钱省心

送貨：速遞 / 物流，時效：出貨後2-4日

『簡體書』机器学习与R语言（原书第3版）

書城自編碼： 3642146
分類：簡體書→大陸圖書→計算機/網絡→人工智能
作者： [美]布雷特·兰茨[Brett Lantz]
國際書號(ISBN)： 9787111684572
出版社：机械工业出版社
出版日期： 2021-06-01

頁數/字數： /
書度/開本： 16开釘裝：平装

售價：NT$ 574

我要買件

** 我創建的書架 **
未登入.

編輯推薦：

机器学习的核心是将数据转换为可操作的知识。R提供了一组强大的机器学习方法，可以帮助你快速轻松地发现数据背后隐藏的信息。本书通过清晰和实用的案例来探索机器学习在现实世界中的应用。无论你是经验丰富的R用户还是R初学者，都会从本书中学到如何发现关键信息、做出新的预测并进行可视化。本书的第3版包含更新和更好的库、有关机器学习中的道德和偏差问题的建议，以及深度学习的简介。通过阅读本书，你将学到：? 通过示例发现机器学习的起源以及计算机的学习方式。? 使用R语言为机器学习准备数据。? 使用近邻和贝叶斯方法对重要结果进行分类。? 使用决策树、关联规则和支持向量机预测未来事件。? 使用回归方法预测数值型数据和估计金融数据。? 使用人工神经网络为复杂过程建模——深度学习的基础。? 避免机器学习模型中的偏差。? 评估模型并改善其性能。? 将R连接到SQL数据库和新兴的大数据技术，例如Spark、H2O和TensorFlow。

內容簡介：

本书共12章：第1章介绍机器学习的基本概念和理论，并介绍用于机器学习的R软件环境的准备；第2章介绍如何应用R来管理数据，进行数据的探索分析和数据可视化；第3～9章介绍典型的机器学习算法，包括k近邻分类算法、朴素贝叶斯算法、决策树和规则树、回归预测、黑盒算法——神经网络和支持向量机、关联分析、k均值聚类，并给出大量的实际案例和详细的分析步骤，例如乳腺癌的判断、垃圾短信的过滤、贷款违约的预测、毒蘑菇的判别、医疗费用的预测、建筑用混凝土强度的预测、光学字符的识别、超市购物篮关联分析以及市场细分等；第10章介绍模型性能评价的原理和方法；第11章给出提高模型性能的几种常用方法；第12章讨论用R进行机器学习时可能遇到的一些高级专题，如特殊形式的数据、大数据集的处理、并行计算和GPU计算等技术。

關於作者：

布雷特·兰茨（Brett Lantz）
在应用创新的数据方法来理解人类的行为方面有十余年经验。他是一位DataCamp讲师，经常在世界各地的机器学习会议和研讨会上进行演讲。他致力于研究数据科学在体育、自动驾驶汽车、外语学习和时尚等领域的应用，并维护dataspelunking.com这个网站，该网站致力于分享有关探寻数据中所蕴含的洞察的知识。

译者简介：
许金炜
2016年上海大学统计学硕士毕业，参与翻译《机器学习与R语言》第1版和第2版、《R语言数据挖掘》及《高级R语言编程指南》第2版，曾于各类数学建模竞赛中斩获佳绩。目前主要于金融行业从事风控领域及量化方面的工作。

译者序
前　言
第1章　机器学习简介 1
1.1　机器学习的起源 1
1.2　机器学习的使用与滥用 2
1.2.1　机器学习的成功应用 3
1.2.2　机器学习的限制 4
1.2.3　机器学习的伦理方面 5
1.3　机器如何学习 7
1.3.1　数据存储 8
1.3.2　抽象化 8
1.3.3　一般化 10
1.3.4　评估 11
1.4　实践中的机器学习 12
1.4.1　输入数据的类型 13
1.4.2　机器学习算法的类型 14
1.4.3　为输入数据匹配算法 15
1.5　使用R进行机器学习 16
1.5.1　安装R添加包 17
1.5.2　载入和卸载R添加包 18
1.5.3　安装RStudio 18
1.6　总结 19
第2章　管理和理解数据 20
2.1　R数据结构 20
2.1.1　向量 20
2.1.2　因子 22
2.1.3　列表 23
2.1.4　数据框 25
2.1.5　矩阵和数组 27
2.2　用R管理数据 28
2.2.1　保存、载入和移除R数据结构 29
2.2.2　从CSV文件导入数据和将数据保存为CSV文件 29
2.3　探索和理解数据 31
2.3.1　探索数据的结构 31
2.3.2　探索数值变量 32
2.3.3　探索分类变量 40
2.3.4　探索变量之间的关系 41
2.4　总结 44
第3章　懒惰学习——使用近邻分类 46
3.1　理解近邻分类 46
3.1.1　k近邻算法 47
3.1.2　为什么k-NN算法是懒惰的 52
3.2　例子—用k-NN算法诊断乳腺癌 53
3.2.1　第1步—收集数据 53
3.2.2　第2步—探索和准备数据 54
3.2.3　第3步—基于数据训练模型 57
3.2.4　第4步—评估模型的性能 58
3.2.5　第5步—提高模型的性能 59
3.3　总结 61
第4章　概率学习——朴素贝叶斯分类 62
4.1　理解朴素贝叶斯 62
4.1.1　贝叶斯方法的基本概念 63
4.1.2　朴素贝叶斯算法 67
4.2　例子—基于贝叶斯算法的手机垃圾短信过滤 72
4.2.1　第1步—收集数据 72
4.2.2　第2步—探索和准备数据 73
4.2.3　第3步—基于数据训练模型 84
4.2.4　第4步—评估模型的性能 85
4.2.5　第5步—提高模型的性能 86
4.3　总结 87
第5章　分而治之——应用决策树和规则进行分类 88
5.1　理解决策树 88
5.1.1　分而治之 89
5.1.2　C5.0决策树算法 92
5.2　例子—使用C5.0决策树识别高风险银行贷款 95
5.2.1　第1步—收集数据 95
5.2.2　第2步—探索和准备数据 95
5.2.3　第3步—基于数据训练模型 98
5.2.4　第4步—评估模型的性能 100
5.2.5　第5步—提高模型的性能 100
5.3　理解分类规则 104
5.3.1　独立而治之 104
5.3.2　1R算法 106
5.3.3　RIPPER算法 108
5.3.4　来自决策树的规则 109
5.3.5　什么使决策树和规则贪婪 110
5.4　例子—应用规则学习算法识别有毒的蘑菇 111
5.4.1　第1步—收集数据 111
5.4.2　第2步—探索和准备数据 112
5.4.3　第3步—基于数据训练模型 112
5.4.4　第4步—评估模型的性能 114
5.4.5　第5步—提高模型的性能 115
5.5　总结 117
第6章　预测数值型数据——回归方法 118
6.1　理解回归 118
6.1.1　简单线性回归 120
6.1.2　普通小二乘估计 122
6.1.3　相关性 123
6.1.4　多元线性回归 124
6.2　例子—应用线性回归预测医疗费用 127
6.2.1　第1步—收集数据 128
6.2.2　第2步—探索和准备数据 128
6.2.3　第3步—基于数据训练模型 132
6.2.4　第4步—评估模型的性能 134
6.2.5　第5步—提高模型的性能 135
6.2.6　第6步—用回归模型进行预测 138
6.3　理解回归树和模型树 140
6.4　例子—用回归树和模型树估计葡萄酒的质量 142
6.4.1　第1步—收集数据 142
6.4.2　第2步—探索和准备数据 143
6.4.3　第3步—基于数据训练模型 144
6.4.4　第4步—评估模型的性能 147
6.4.5　第5步—提高模型的性能 149
6.5　总结 151
第7章　黑箱方法—神经网络和支持向量机 152
7.1　理解神经网络 152
7.1.1　从生物神经元到人工神经元 153
7.1.2　激活函数 154
7.1.3　网络拓扑 156
7.1.4　用后向传播训练神经网络 159
7.2　例子—用人工神经网络对混凝土的强度进行建模 160
7.2.1　第1步—收集数据 161
7.2.2　第2步—探索和准备数据 161
7.2.3　第3步—基于数据训练模型 162
7.2.4　第4步—评估模型的性能 164
7.2.5　第5步—提高模型的性能 165
7.3　理解支持向量机 169
7.3.1　用超平面分类 169
7.3.2　对非线性空间使用核函数 173
7.4　例子—用支持向量机进行光学字符识别 175
7.4.1　第1步—收集数据 175
7.4.2　第2步—探索和准备数据 176
7.4.3　第3步—基于数据训练模型 177
7.4.4　第4步—评估模型的性能 179
7.4.5　第5步—提高模型的性能 180
7.5　总结 182
第8章　探寻模式——基于关联规则的购物篮分析 183
8.1　理解关联规则 183
8.1.1　用于关联规则学习的Apriori算法 184
8.1.2　度量规则兴趣度—支持度和置信度 185
8.1.3　用Apriori原则建立规则 186
8.2　例子—用关联规则确定经常一起购买的食品杂货 187
8.2.1　第1步—收集数据 187
8.2.2　第2步—探索和准备数据 188
8.2.3　第3步—基于数据训练模型 193
8.2.4　第4步—评估模型的性能 195
8.2.5　第5步—提高模型的性能 197
8.3　总结 200
第9章　寻找数据的分组——k均值聚类 201
9.1　理解聚类 201
9.1.1　聚类—一种机器学习任务 202
9.1.2　k均值聚类算法 203
9.2　例子—用k均值聚类探寻青少年市场细分 209
9.2.1　第1步—收集数据 209
9.2.2　第2步—探索和准备数据 210
9.2.3　第3步—基于数据训练模型 213
9.2.4　第4步—评估模型的性能 215
9.2.5　第5步—提高模型的性能 217
9.3　总结 219
第10章　模型性能的评估 220
10.1　度量分类方法的性能 220
10.1.1　理解分类器的预测 221
10.1.2　深入探讨混淆矩阵 224
10.1.3　使用混淆矩阵度量性能 225
10.1.4　准确率之外的其他性能度量指标 226
10.1.5　使用ROC曲线可视化性能权衡 233
10.2　评估未来的性能 237
10.3　总结 242
第11章　提高模型的性能 243
11.1　调整多个模型来提高性能 243
11.2　使用元学习来提高模型的性能 251
11.2.1　理解集成学习 251
11.2.2　bagging 253
11.2.3　boosting 254
11.2.4　随机森林 256
11.3　总结 261
第12章　其他机器学习主题 262
12.1　管理和准备真实数据 262
12.1.1　使用tidyverse添加包使数据变得“整洁” 263
12.1.2　读取和写入外部数据文件 265
12.1.3　查询SQL数据库中的数据 266
12.2　处理在线数据和服务 270
12.2.1　下载网页的所有文本 270
12.2.2　解析网页中的数据 271
12.3　处理特定领域的数据 277
12.3.1　分析生物信息学数据 277
12.3.2　分析和可视化网络数据 277
12.4　提高R语言的性能 280
12.4.1　处理非常大的数据集 281
12.4.2　使用并行计算来加快学习过程 283
12.4.3　部署优化的学习算法 290
12.4.4　GPU计算 292
12.5　总结 294

內容試閱：

译　者　序
随着大数据的概念变得越来越流行，对数据的探索、分析和预测逐渐成为大数据分析领域的基本技能。作为探索和分析数据的基本理论和工具，机器学习和数据挖掘成为时下热门的技术。R作为功能强大且免费的数据分析工具，在数据分析领域获得了越来越多用户的青睐。本书介绍了如何使用R来进行现实世界中的机器学习，如何从数据中获取可以付诸行动的见解。
本书的作者Brett Lantz在机器学习领域拥有十余年的实践经验，他在本书中介绍了多种机器学习算法。在给出相应的机器学习算法的核心理论之后，都会给出一个实际的案例，从对案例数据的探索、整理，到模型的建立和评估，每一步都给出了详尽的步骤和R代码。
本书共分12章。第1章介绍了机器学习的基本概念和理论，并介绍了用于机器学习的R软件环境的准备。第2章介绍了如何应用R来管理数据，进行数据的探索分析和可视化。第3～9章介绍了典型的机器学习算法和案例，它们分别是：k近邻分类算法、朴素贝叶斯算法、决策树和规则树、回归预测、黑盒算法—神经网络和支持向量机、关联分析、k均值聚类。伴随着对这些算法的介绍，书中给出了大量的实际案例，并给出了详细的分析步骤，案例包括乳腺癌的判断、垃圾短信的过滤、贷款违约的预测、毒蘑菇的判别、医疗费用的预测、建筑用混凝土强度的预测、光学字符的识别、购物篮关联分析以及市场细分等。第10章介绍了模型性能评估的原理和方法。第11章给出了提高模型性能的几种常用方法。第12章讨论了用R进行机器学习时可能遇到的一些高级主题，例如特殊形式的数据、大数据集的处理、并行计算和GPU计算等技术。
R本身是一款十分优秀的数据分析和可视化软件，现在R中有大量用于机器学习的添加包。本书以机器学习算法为主线，通过案例学习的形式来组织内容，脉络清晰，并且各章自成体系。读者可以从头开始逐章学习，也可以找到自己所需要的内容来学习。读者只需要具有R的一些基本知识即可，不需要具备机器学习的深厚基础。不管是R初学者，还是熟练的R用户，都能从书中找到对自己有用的内容。
译者曾经应用本书的部分内容进行教学，学生都反映这些内容具有极强的实用价值，许多内容直接或者略加修改就可以应用到他们的实际工作中。我们有幸受机械工业出版社委托将本书译成中文，希望中文版的出版能够给国内读者学习R与机器学习带来方便。
本书的翻译工作由李洪成、许金炜和潘文捷共同完成，全书由李洪成统一定稿。由于时间和水平所限，书中难免会有不当之处，希望同行和读者多加指正。
李洪成
2020年12月

前　　言
机器学习的核心是将信息转化为具有可行性知识的算法。这一事实使得机器学习非常适用于当今的大数据时代。如果没有机器学习，要跟上海量的信息数据流几乎是不可能的。
鉴于R的地位不断提高（R是一个跨平台、零成本的统计编程环境），现在是开始使用机器学习的好时机。R提供了一套功能强大且易于学习的工具，这些工具可以帮助我们发现数据背后隐藏的信息。
通过把实践案例研究与基本理论（你需要理解这些理论在后台是如何运行的）相结合，本书提供了在工作中使用机器学习所需要的全部知识。
本书读者对象
本书适用于任何希望使用数据来采取行动的人。或许你已经对机器学习有些了解但从来没有使用过R，或许你已经对R有些了解，但机器学习对你来说是全新的。无论是哪种情况，本书都将让你快速上手。稍微熟悉一些基本的数学和编程概念将会有帮助，但并不需要先前有经验，你只需要有好奇心就行。
本书涵盖的内容
第1章介绍用来定义和区分机器学习算法的术语和概念，并给出将学习任务与适当算法相匹配的方法。
第2章提供一个在R中自己实际动手操作数据的机会，并讨论基本的数据结构以及用于载入、探索和理解数据的程序。
第3章教你如何将一个简单且功能强大的机器学习算法应用于你的个学习任务：识别癌症的恶性样本。
第4章揭示用于先进的垃圾邮件过滤系统的基本概率知识。在建立你自己的垃圾邮件过滤器的过程中，你将学习文本挖掘的基本知识。
第5章探索两种学习算法，它们的预测结果不仅精确而且容易解释。我们将把这两种算法应用于对透明度要求很高的任务中。
第6章介绍用于数值预测的机器学习算法。由于这些技术在很大程度上来源于统计领域，所以你还将通过学习必要的基本指标来理解数值之间的关系。
第7章包括两个极其复杂但功能强大的机器学习算法。尽管数学可能会让人望而生畏，但是我们将以简单的术语结合实际例子来说明它们内部的运作原理。
第8章揭示许多零售商使用的推荐系统的算法。如果你想知道零售商是如何比你自己更了解你的购物习惯的，本章将揭示他们的秘密。
第9章介绍k均值聚类。该算法用来查找相关个体的聚类。我们将使用该算法来确定一个网络社区内的分布。
第10章提供一些信息来度量机器学习项目是否成功，并得到学习器针对未来数据的性能的可靠估计。
第11章揭示在机器学习竞赛中排名靠前的团队所采用的方法。如果你具有竞争意识，或者仅仅想获取数据中尽可能多的信息，那么你需要学习这些技术。
第12章探讨机器学习的前沿主题。从使用大数据到使R的运行速度更快，涉及的这些主题将帮助你拓展使用R进行数据挖掘的界限。
学习本书的知识准备
本书中的例子是基于Microsoft Windows和Mac OS X系统的R 3.5.2版本进行编写与测试的，当然，对于任意的R版本，这些例子都能运行。
下载示例代码文件及彩色图像
本书的示例代码文件及使用的截图或图表的彩色图像，可以从Packtpub（http://www.packtpub.com）通过个人账号下载，也可以访问华章图书官网http://www.hzbook.com，通过注册并登录个人账号下载。
本书的代码包也放在GitHub的https://github.com/PacktPublishing/Machine-Learning-with-R-Third-Edition和https://github.com/dataspelunking/MLwR/上。
本书排版约定
在本书中，你将发现一些用于区分不同类型信息的文本样式。下面是这些样式的一些例子，以及它们的含义。
书中的代码、函数名、文件名、文件扩展名、用户输入和R添加包名字，如下所示： “class包中的knn()函数提供了k-NN算法的标准经典实现”
R用户的输入和输出如下所示：
新的术语和重要概念以黑体显示。你在屏幕上看到的单词，例如，在菜单或对话框中看到的单词，像这样显示在书中：“CRAN页面左边的任务视图链接提供了添加包的长列表。”
警告或者重要注释。
提示和技巧。
致谢
如果没有家人和朋友的支持，编写本书是根本不可能的。特别是，非常感谢我的妻子Jessica在过去一年中对我的耐心与鼓励。我的儿子Will和Cal分别出生于本书第1版和第2版的写作期间，在我撰写本版时他们分散了我较多的精力。我把本书献给我的孩子们，希望有一天他们能从中受到启发，应对重大的挑战，并跟随他们的好奇心，无论他们的好奇心会通向哪里。
我还要感谢支持本书的很多人。本书的很多想法来源于我与密歇根大学、圣母大学以及中佛罗里达大学的教育工作者、同事以及合作者的交流。此外，如果没有各位研究人员以公开出版物、课程和源代码的形式分享他们的专业知识，本书可能根本就不会存在。后，我要感谢R和RStudio团队以及所有那些贡献R添加包的人员的努力，是他们终为大家普及了机器学习。真心希望我的这本书能对机器学习领域做出一点贡献。
关于作者
布雷特·兰茨（Brett Lantz，@DataSpelunking）　在应用创新的数据方法来理解人类的行为方面有10余年经验。他初是一名社会学家，在研究一个包含青少年社交网络资料的大型数据库时，他就开始沉醉于机器学习。Brett是一位DataCamp讲师，经常在世界各地的机器学习会议和研讨会上进行演讲。他致力于研究数据科学在体育、自动驾驶汽车、外语学习和时尚等领域的应用，并希望有一天在dataspelunking.com上发布有关这些主题的博客，该网站致力于分享探寻数据中所蕴含的深刻知识。
关于审稿人
拉格哈夫·巴利（Raghav Bali）是全球的医疗保健组织之一的高级数据科学家。他的工作包括针对医疗保健和保险相关的用例研究和开发基于机器学习、深度学习和自然语言处理的企业级解决方案。他曾在英特尔任职，参与了使用自然语言处理、深度学习和传统统计方法来实施主动式数据驱动的IT计划。他还曾在美国运通公司从事金融领域的工作，解决数字参与和客户维持的用例。
拉格哈夫还与一些主流的出版商合作出版了多本书，其中一本是关于迁移学习的研究进展的。
拉格哈夫拥有班加罗尔国际信息技术研究所的信息技术硕士学位（全优毕业生）。当拉格哈夫不忙于解决问题时，他喜欢读书，并且是一个摄影爱好者。

書城介紹　 \|　合作申請　\|　索要書目　 \|　新手入門　\|　聯絡方式　 \|　幫助中心　\|　找書說明　 \|　送貨方式　\|　付款方式	台灣用户　\|　香港/海外用户

megBook.com.tw
Copyright (C) 2013 - 2025 （香港）大書城有限公司　All Rights Reserved.