《PYthon大数据分析与机器学习商业案例实战》王宇韬钱妍竹等 | PDF下载|ePub下载
PYthon大数据分析与机器学习商业案例实战 版权信息
- 出版社:机械工业出版社
- 出版时间:2020-04-29
- ISBN:9787111654711
- 条形码:9787111654711 ; 978-7-111-65471-1
PYthon大数据分析与机器学习商业案例实战 本书特色
大数据分析与机器学习技术已成为各行各业实现数字化变革的关键驱动力。本书以功能强大且较易上手的Python语言为编程环境,全面讲解了大数据分析与机器学习技术的商业应用实战。
全书共16章,讲解了线性回归模型、逻辑回归模型、决策树模型、朴素贝叶斯模型、K近邻算法模型、随机森林模型、AdaBoost与GBDT模型、XGBoost与LightGBM模型、PCA(主成分分析)模型、聚类与分群模型(KMeans与DBSCAN算法)、协同过滤算法模型、Apriori关联分析模型、神经网络模型等十余种机器学习模型的原理和代码实现,每种模型都配有一到两个典型案例,涵盖金融、营销、医疗、社会科学、企业办公与管理等多个领域。
本书适合具备一定数学知识和编程基础、希望快速在工作中应用大数据分析与机器学习技术的读者阅读,也适合Python编程爱好者或对大数据分析与机器学习技术感兴趣的读者参考。
PYthon大数据分析与机器学习商业案例实战 内容简介
零基础学机器学习与量化策略、详解多个行业中的大数据分析技术,全面揭秘机器学习在商业中的应用实战,详细金融数据风控、股票量化交易、商品智能推荐、用户情感分析等大数据分析技术
PYthon大数据分析与机器学习商业案例实战 目录
前言
如何获取学习资源
第1章 Python与数据科学
1.1 大数据分析与机器学习概述13
1.1.1 大数据分析与机器学习的应用领域13
1.1.2 机器学习的基本概念14
1.1.3 Python在数据科学中的作用16
1.2 Python编程环境部署与基本操作16
1.2.1 Python的安装16
1.2.2 Pycharm的安装与设置18
1.2.3 Jupyter Notebook的使用22
1.3 Python基础知识概要28
第2章 数据分析利器:NumPy、pandas与Matplotlib库
2.1 NumPy库基础29
2.1.1 NumPy库与数组29
2.1.2 数组与列表的区别30
2.1.3 创建数组的几种方式31
2.2 pandas库基础33
2.2.1 二维数据表格DataFrame的创建33
2.2.2 Excel工作簿等文件的读取和写入38
2.2.3 数据的选取与处理41
2.2.4 数据表拼接47
2.3 Matplotlib库基础51
2.3.1 基本图表绘制51
2.3.2 数据可视化常用技巧56
2.4 案例实战:股票数据读取与K线图绘制61
2.4.1 初步尝试:股票数据读取与可视化62
2.4.2 进阶实战:股票K线图绘制65
第3章 线性回归模型
3.1 一元线性回归73
3.1.1 一元线性回归的数学原理73
3.1.2 一元线性回归的代码实现75
3.1.3 案例实战:不同行业工龄与薪水的线性回归模型77
3.2 线性回归模型评估83
3.2.1 模型评估的编程实现83
3.2.2 模型评估的数学原理84
3.3 多元线性回归87
3.3.1 多元线性回归的数学原理和代码实现87
3.3.2 案例实战:客户价值预测模型88
第4章 逻辑回归模型
4.1 逻辑回归模型的算法原理92
4.1.1 逻辑回归模型的数学原理92
4.1.2 逻辑回归模型的代码实现94
4.1.3 逻辑回归模型的深入理解95
4.2 案例实战:客户流失预警模型98
4.2.1 案例背景98
4.2.2 数据读取与变量划分98
4.2.3 模型的搭建与使用99
4.3 模型评估方法:ROC曲线与KS曲线104
4.3.1 ROC曲线的基本原理105
4.3.2 案例实战:用ROC曲线评估客户流失预警模型108
4.3.3 KS曲线的基本原理111
4.3.4 案例实战:用KS曲线评估客户流失预警模型112
第5章 决策树模型
5.1 决策树模型的基本原理115
5.1.1 决策树模型简介115
5.1.2 决策树模型的建树依据116
5.1.3 决策树模型的代码实现119
5.2 案例实战:员工离职预测模型123
5.2.1 模型搭建123
5.2.2 模型预测及评估126
5.2.3 决策树模型可视化呈现及决策树要点理解131
5.3 参数调优:K折交叉验证与GridSearch网格搜索138
5.3.1 K折交叉验证138
5.3.2 GridSearch网格搜索139
第6章 朴素贝叶斯模型
6.1 朴素贝叶斯模型的算法原理145
6.1.1 一维特征变量下的贝叶斯模型145
6.1.2 二维特征变量下的贝叶斯模型146
6.1.3 n维特征变量下的贝叶斯模型147
6.1.4 朴素贝叶斯模型的简单代码实现147
6.2 案例实战:肿瘤预测模型148
6.2.1 案例背景148
6.2.2 数据读取与划分148
6.2.3 模型的搭建与使用149
第7章 K近邻算法
7.1 K近邻算法的原理和代码实现152
7.1.1 K近邻算法的基本原理152
7.1.2 K近邻算法的计算步骤153
7.1.3 K近邻算法的代码实现155
7.2 案例实战:手写数字识别模型157
7.2.1 案例背景157
7.2.2 手写数字识别的原理157
7.2.3 手写数字识别的代码实现159
7.3 图像识别原理详解162
第8章 随机森林模型
8.1 随机森林模型的原理和代码实现166
8.1.1 集成模型简介166
8.1.2 随机森林模型的基本原理167
8.1.3 随机森林模型的代码实现168
8.2 案例实战:股票涨跌预测模型170
8.2.1 股票基本数据获取170
8.2.2 股票衍生变量生成173
8.2.3 多因子模型搭建181
8.2.4 模型使用与评估184
8.2.5 参数调优186
8.2.6 收益回测曲线绘制188
第9章 AdaBoost与GBDT模型
9.1 AdaBoost算法原理190
9.1.1 AdaBoost算法的核心思想190
9.1.2 AdaBoost算法的数学原理概述191
9.1.3 AdaBoost算法的数学原理举例194
9.1.4 AdaBoost算法的简单代码实现200
9.2 AdaBoost算法案例实战:信用卡精准营销模型201
9.2.1 案例背景201
9.2.2 模型搭建201
9.2.3 模型预测及评估202
9.2.4 模型参数介绍205
9.3 GBDT算法原理206
9.3.1 GBDT算法的核心思想206
9.3.2 GBDT算法的数学原理概述208
9.3.3 GBDT算法的数学原理举例208
9.3.4 GBDT算法的简单代码实现213
9.4 GBDT算法案例实战:产品定价模型214
9.4.1 案例背景214
9.4.2 模型搭建214
9.4.3 模型预测及评估217
9.4.4 模型参数介绍219
第10章 机器学习神器:XGBoost与LightGBM算法
10.1 XGBoost算法原理223
10.1.1 XGBoost算法的核心思想224
10.1.2 XGBoost算法的数学原理概述224
10.1.3 XGBoost算法的简单代码实现225
10.2 XGBoost算法案例实战1:金融反欺诈模型226
10.2.1 案例背景226
10.2.2 模型搭建226
10.2.3 模型预测及评估228
10.2.4 模型参数调优230
10.3 XGBoost算法案例实战2:信用评分卡模型233
10.3.1 案例背景233
10.3.2 多元线性回归模型234
10.3.3 GBDT回归模型235
10.3.4 XGBoost回归模型237
10.4 LightGBM算法原理241
10.4.1 LightGBM
如何获取学习资源
第1章 Python与数据科学
1.1 大数据分析与机器学习概述13
1.1.1 大数据分析与机器学习的应用领域13
1.1.2 机器学习的基本概念14
1.1.3 Python在数据科学中的作用16
1.2 Python编程环境部署与基本操作16
1.2.1 Python的安装16
1.2.2 Pycharm的安装与设置18
1.2.3 Jupyter Notebook的使用22
1.3 Python基础知识概要28
第2章 数据分析利器:NumPy、pandas与Matplotlib库
2.1 NumPy库基础29
2.1.1 NumPy库与数组29
2.1.2 数组与列表的区别30
2.1.3 创建数组的几种方式31
2.2 pandas库基础33
2.2.1 二维数据表格DataFrame的创建33
2.2.2 Excel工作簿等文件的读取和写入38
2.2.3 数据的选取与处理41
2.2.4 数据表拼接47
2.3 Matplotlib库基础51
2.3.1 基本图表绘制51
2.3.2 数据可视化常用技巧56
2.4 案例实战:股票数据读取与K线图绘制61
2.4.1 初步尝试:股票数据读取与可视化62
2.4.2 进阶实战:股票K线图绘制65
第3章 线性回归模型
3.1 一元线性回归73
3.1.1 一元线性回归的数学原理73
3.1.2 一元线性回归的代码实现75
3.1.3 案例实战:不同行业工龄与薪水的线性回归模型77
3.2 线性回归模型评估83
3.2.1 模型评估的编程实现83
3.2.2 模型评估的数学原理84
3.3 多元线性回归87
3.3.1 多元线性回归的数学原理和代码实现87
3.3.2 案例实战:客户价值预测模型88
第4章 逻辑回归模型
4.1 逻辑回归模型的算法原理92
4.1.1 逻辑回归模型的数学原理92
4.1.2 逻辑回归模型的代码实现94
4.1.3 逻辑回归模型的深入理解95
4.2 案例实战:客户流失预警模型98
4.2.1 案例背景98
4.2.2 数据读取与变量划分98
4.2.3 模型的搭建与使用99
4.3 模型评估方法:ROC曲线与KS曲线104
4.3.1 ROC曲线的基本原理105
4.3.2 案例实战:用ROC曲线评估客户流失预警模型108
4.3.3 KS曲线的基本原理111
4.3.4 案例实战:用KS曲线评估客户流失预警模型112
第5章 决策树模型
5.1 决策树模型的基本原理115
5.1.1 决策树模型简介115
5.1.2 决策树模型的建树依据116
5.1.3 决策树模型的代码实现119
5.2 案例实战:员工离职预测模型123
5.2.1 模型搭建123
5.2.2 模型预测及评估126
5.2.3 决策树模型可视化呈现及决策树要点理解131
5.3 参数调优:K折交叉验证与GridSearch网格搜索138
5.3.1 K折交叉验证138
5.3.2 GridSearch网格搜索139
第6章 朴素贝叶斯模型
6.1 朴素贝叶斯模型的算法原理145
6.1.1 一维特征变量下的贝叶斯模型145
6.1.2 二维特征变量下的贝叶斯模型146
6.1.3 n维特征变量下的贝叶斯模型147
6.1.4 朴素贝叶斯模型的简单代码实现147
6.2 案例实战:肿瘤预测模型148
6.2.1 案例背景148
6.2.2 数据读取与划分148
6.2.3 模型的搭建与使用149
第7章 K近邻算法
7.1 K近邻算法的原理和代码实现152
7.1.1 K近邻算法的基本原理152
7.1.2 K近邻算法的计算步骤153
7.1.3 K近邻算法的代码实现155
7.2 案例实战:手写数字识别模型157
7.2.1 案例背景157
7.2.2 手写数字识别的原理157
7.2.3 手写数字识别的代码实现159
7.3 图像识别原理详解162
第8章 随机森林模型
8.1 随机森林模型的原理和代码实现166
8.1.1 集成模型简介166
8.1.2 随机森林模型的基本原理167
8.1.3 随机森林模型的代码实现168
8.2 案例实战:股票涨跌预测模型170
8.2.1 股票基本数据获取170
8.2.2 股票衍生变量生成173
8.2.3 多因子模型搭建181
8.2.4 模型使用与评估184
8.2.5 参数调优186
8.2.6 收益回测曲线绘制188
第9章 AdaBoost与GBDT模型
9.1 AdaBoost算法原理190
9.1.1 AdaBoost算法的核心思想190
9.1.2 AdaBoost算法的数学原理概述191
9.1.3 AdaBoost算法的数学原理举例194
9.1.4 AdaBoost算法的简单代码实现200
9.2 AdaBoost算法案例实战:信用卡精准营销模型201
9.2.1 案例背景201
9.2.2 模型搭建201
9.2.3 模型预测及评估202
9.2.4 模型参数介绍205
9.3 GBDT算法原理206
9.3.1 GBDT算法的核心思想206
9.3.2 GBDT算法的数学原理概述208
9.3.3 GBDT算法的数学原理举例208
9.3.4 GBDT算法的简单代码实现213
9.4 GBDT算法案例实战:产品定价模型214
9.4.1 案例背景214
9.4.2 模型搭建214
9.4.3 模型预测及评估217
9.4.4 模型参数介绍219
第10章 机器学习神器:XGBoost与LightGBM算法
10.1 XGBoost算法原理223
10.1.1 XGBoost算法的核心思想224
10.1.2 XGBoost算法的数学原理概述224
10.1.3 XGBoost算法的简单代码实现225
10.2 XGBoost算法案例实战1:金融反欺诈模型226
10.2.1 案例背景226
10.2.2 模型搭建226
10.2.3 模型预测及评估228
10.2.4 模型参数调优230
10.3 XGBoost算法案例实战2:信用评分卡模型233
10.3.1 案例背景233
10.3.2 多元线性回归模型234
10.3.3 GBDT回归模型235
10.3.4 XGBoost回归模型237
10.4 LightGBM算法原理241
10.4.1 LightGBM