《机器学习与R语言(原书第3版)》布雷特・兰茨 | PDF下载|ePub下载
机器学习与R语言(原书第3版) 版权信息
- 出版社:机械工业出版社
- 出版时间:2021-06-01
- ISBN:9787111684572
- 条形码:9787111684572 ; 978-7-111-68457-2
机器学习与R语言(原书第3版) 本书特色
适读人群 :机器学习及R语言相关从业人员机器学习的核心是将数据转换为可操作的知识。R提供了一组强大的机器学习方法,可以帮助你快速轻松地发现数据背后隐藏的信息。 本书通过清晰和实用的案例来探索机器学习在现实世界中的应用。无论你是经验丰富的R用户还是R初学者,都会从本书中学到如何发现关键信息、做出新的预测并进行可视化。 本书的第3版包含更新和更好的库、有关机器学习中的道德和偏差问题的建议,以及深度学习的简介。 通过阅读本书,你将学到: ?? 通过示例发现机器学习的起源以及计算机的学习方式。 ?? 使用R语言为机器学习准备数据。 ?? 使用近邻和贝叶斯方法对重要结果进行分类。 ?? 使用决策树、关联规则和支持向量机预测未来事件。 ?? 使用回归方法预测数值型数据和估计金融数据。 ?? 使用人工神经网络为复杂过程建模――深度学习的基础。 ?? 避免机器学习模型中的偏差。 ?? 评估模型并改善其性能。 ?? 将R连接到SQL数据库和新兴的大数据技术,例如Spark、H2O和TensorFlow。
机器学习与R语言(原书第3版) 内容简介
本书共12章:第1章介绍机器学习的基本概念和理论,并介绍用于机器学习的R软件环境的准备;第2章介绍如何应用R来管理数据,进行数据的探索分析和数据可视化;第3~9章介绍典型的机器学习算法,包括k近邻分类算法、朴素贝叶斯算法、决策树和规则树、回归预测、黑盒算法――神经网络和支持向量机、关联分析、k均值聚类,并给出大量的实际案例和详细的分析步骤,例如乳腺癌的判断、垃圾短信的过滤、贷款违约的预测、毒蘑菇的判别、医疗费用的预测、建筑用混凝土强度的预测、光学字符的识别、超市购物篮关联分析以及市场细分等;第10章介绍模型性能评价的原理和方法;第11章给出提高模型性能的几种常用方法;第12章讨论用R进行机器学习时可能遇到的一些高级专题,如特殊形式的数据、大数据集的处理、并行计算和GPU计算等技术。
机器学习与R语言(原书第3版) 目录
译者序
前 言
第1章 机器学习简介 1
1.1 机器学习的起源 1
1.2 机器学习的使用与滥用 2
1.2.1 机器学习的成功应用 3
1.2.2 机器学习的限制 4
1.2.3 机器学习的伦理方面 5
1.3 机器如何学习 7
1.3.1 数据存储 8
1.3.2 抽象化 8
1.3.3 一般化 10
1.3.4 评估 11
1.4 实践中的机器学习 12
1.4.1 输入数据的类型 13
1.4.2 机器学习算法的类型 14
1.4.3 为输入数据匹配算法 15
1.5 使用R进行机器学习 16
1.5.1 安装R添加包 17
1.5.2 载入和卸载R添加包 18
1.5.3 安装RStudio 18
1.6 总结 19
第2章 管理和理解数据 20
2.1 R数据结构 20
2.1.1 向量 20
2.1.2 因子 22
2.1.3 列表 23
2.1.4 数据框 25
2.1.5 矩阵和数组 27
2.2 用R管理数据 28
2.2.1 保存、载入和移除R数据结构 29
2.2.2 从CSV文件导入数据和将数据保存为CSV文件 29
2.3 探索和理解数据 31
2.3.1 探索数据的结构 31
2.3.2 探索数值变量 32
2.3.3 探索分类变量 40
2.3.4 探索变量之间的关系 41
2.4 总结 44
第3章 懒惰学习――使用近邻分类 46
3.1 理解近邻分类 46
3.1.1 k近邻算法 47
3.1.2 为什么k-NN算法是懒惰的 52
3.2 例子―用k-NN算法诊断乳腺癌 53
3.2.1 第1步―收集数据 53
3.2.2 第2步―探索和准备数据 54
3.2.3 第3步―基于数据训练模型 57
3.2.4 第4步―评估模型的性能 58
3.2.5 第5步―提高模型的性能 59
3.3 总结 61
第4章 概率学习――朴素贝叶斯分类 62
4.1 理解朴素贝叶斯 62
4.1.1 贝叶斯方法的基本概念 63
4.1.2 朴素贝叶斯算法 67
4.2 例子―基于贝叶斯算法的手机垃圾短信过滤 72
4.2.1 第1步―收集数据 72
4.2.2 第2步―探索和准备数据 73
4.2.3 第3步―基于数据训练模型 84
4.2.4 第4步―评估模型的性能 85
4.2.5 第5步―提高模型的性能 86
4.3 总结 87
第5章 分而治之――应用决策树和规则进行分类 88
5.1 理解决策树 88
5.1.1 分而治之 89
5.1.2 C5.0决策树算法 92
5.2 例子―使用C5.0决策树识别高风险银行贷款 95
5.2.1 第1步―收集数据 95
5.2.2 第2步―探索和准备数据 95
5.2.3 第3步―基于数据训练模型 98
5.2.4 第4步―评估模型的性能 100
5.2.5 第5步―提高模型的性能 100
5.3 理解分类规则 104
5.3.1 独立而治之 104
5.3.2 1R算法 106
5.3.3 RIPPER算法 108
5.3.4 来自决策树的规则 109
5.3.5 什么使决策树和规则贪婪 110
5.4 例子―应用规则学习算法识别有毒的蘑菇 111
5.4.1 第1步―收集数据 111
5.4.2 第2步―探索和准备数据 112
5.4.3 第3步―基于数据训练模型 112
5.4.4 第4步―评估模型的性能 114
5.4.5 第5步―提高模型的性能 115
5.5 总结 117
第6章 预测数值型数据――回归方法 118
6.1 理解回归 118
6.1.1 简单线性回归 120
6.1.2 普通*小二乘估计 122
6.1.3 相关性 123
6.1.4 多元线性回归 124
6.2 例子―应用线性回归预测医疗费用 127
6.2.1 第1步―收集数据 128
6.2.2 第2步―探索和准备数据 128
6.2.3 第3步―基于数据训练模型 132
6.2.4 第4步―评估模型的性能 134
6.2.5 第5步―提高模型的性能 135
6.2.6 第6步―用回归模型进行预测 138
6.3 理解回归树和模型树 140
6.4 例子―用回归树和模型树估计葡萄酒的质量 142
6.4.1 第1步―收集数据 142
6.4.2 第2步―探索和准备数据 143
6.4.3 第3步―基于数据训练模型 144
6.4.4 第4步―评估模型的性能 147
6.4.5 第5步―提高模型的性能 149
6.5 总结 151
第7章 黑箱方法―神经网络和支持向量机 152
7.1 理解神经网络 152
7.1.1 从生物神经元到人工神经元 153
7.1.2 激活函数 154
7.1.3 网络拓扑 156
7.1.4 用后向传播训练神经网络 159
7.2 例子―用人工神经网络对混凝土的强度进行建模 160
7.2.1 第1步―收集数据 161
7.2.2 第2步―探索和准备数据 161
7.2.3 第3步―基于数据训练模型 162
7.2.4 第4步―评估模型的性能 164
7.2.5 第5步―提高模型的性能 165
7.3 理解支持向量机 169
7.3.1 用超平面分类 169
7.3.2 对非线性空间使用核函数 173
7.4 例子―用支持向量机进行光学字符识别 175
7.4.1 第1步―收集数据 175
7.4.2 第2步―探索和准备数据 176
7.4.3 第3步―基于数据训练模型 177
7.4.4 第4步―评估模型的性能 179
7.4.5 第5步―提高模型的性能 180
7.5 总结 182
第8章 探寻模式――基于关联规则的购物篮分析 183
8.1 理解关联规则 183
8.1.1 用于关联规则学习的Apriori算法 184
8.1.2 度量规则兴趣度―支持度和置信度 185
8.1.3 用Apriori原则建立规则 186
8.2 例子―用关联规则确定经常一起购买的食品杂货 187
8.2.1 第1步―收集数据 187
8.2.2 第2步―探索和准备数据 188
8.2.3 第3步―基于数据训练模型 193
8.2.4 第4步―评估模型的性能 195
8.2.5 第5步―提高模型的性能 197
8.3 总结 200
第9章 寻找数据的分组――k均值聚类 201
9.1 理解聚类 201
9.1.1 聚类―一种机器学习任务 202
9.1.2 k均值聚类算法 203
9.2 例子―用k均值聚类探寻青少年市场细分 209
9.2.1 第1步―收集数据 209
9.2.2 第2步―探索和准备数据 210
9.2.3 第3步―基于数据训练模型 213
9.2.4 第4步―评估模型的性能 215
9.2.5 第5步―提高模型的性能 217
9.3 总结 219
第10章 模型性能的评估 220
10.1 度量分类方法的性能 220
10.1.1 理解分类器的预测 221
10.1.2 深入探讨混淆矩阵 224
10.1.3 使用混淆矩阵度量性能 225
10.1.4 准确率之外的其他性能度量指标 226
10.1.5 使用ROC曲线可视化性能权衡 233
10.2 评估未来的性能 237
10.3 总结 242
第11章 提高模型的性能 243
11.1 调整多个模型来提高性能 243
11.2 使用元学习来提高模型的性能 251
11.2.1 理解集成学习 251
11.2.2 bagging 253
11.2.3 boosting 254
11.2.4 随机森林 256
11.3 总结 261
第12章 其他机器学习主题 262
12.1 管理和准备真实数据 262
12.1.1 使用tidyverse添加包使数据变得“整洁” 263
12.1.2 读取和写入外部数据文件 265
12.1.3 查询SQL数据库中的数据 266
12.2 处理在线数据和服务 270
12.2.1 下载网页的所有文本 270
12.2.2 解析网页中的数据 271
12.3 处理特定领域的数据 277
12.3.1 分析生物信息学数据 277
12.3.2 分析和可视化网络数据 277
12.4 提高R语言的性能 280
12.4.1 处理非常大的数据集 281
12.4.2 使用并行计算来加快学习过程 283
12.4.3 部署优化的学习算法 290
12.4.4 GPU计算 292
12.5 总结 294
机器学习与R语言(原书第3版) 作者简介
布雷特·兰茨(Brett Lantz) 在应用创新的数据方法来理解人类的行为方面有十余年经验。他是一位DataCamp讲师,经常在世界各地的机器学习会议和研讨会上进行演讲。他致力于研究数据科学在体育、自动驾驶汽车、外语学习和时尚等领域的应用,并维护dataspelunking.com这个网站,该网站致力于分享有关探寻数据中所蕴含的洞察的知识。 译者简介: 许金炜 2016年上海大学统计学硕士毕业,参与翻译《机器学习与R语言》第1版和第2版、《R语言数据挖掘》及《高级R语言编程指南》第2版,曾于各类数学建模竞赛中斩获佳绩。目前主要于金融行业从事风控领域及量化方面的工作。